Cuando llega el momento de empujar, Google invierte mucho en GPU Compute
Hace un año, en su evento Google I/O 2022, Google reveló al mundo que tenía ocho pods de aceleradores TPUv4, con un total combinado de 32 768 de su cuarta generación, aceleradores matemáticos matriciales de cosecha propia, ejecutándose en un centro de aprendizaje automático ubicado en su Centro de datos del condado de Mayes, Oklahoma. Tenía otro pod TPUv4 ejecutándose en otro centro de datos, probablemente muy cerca de Silicon Valley. Y en el año siguiente, por lo que sabemos, es posible que haya instalado muchos más pods TPUv4.
Y a pesar de cómo Google está utilizando motores TPUv4 para hacer inferencias para su motor de búsqueda y plataformas de publicación de anuncios, el hecho es que Google se encuentra entre los mayores compradores de GPU Nvidia en el planeta y, si no lo está haciendo ya, comprará Aceleradores de GPU AMD Instinct en volumen porque cualquier GPU es mejor que muy pocas GPU en un sector de TI impulsado por IA. Y eso se debe a que Google es un proveedor de la nube y tiene que vender lo que los clientes quieren y esperan, y en su mayor parte, las empresas esperan ejecutar capacitación en inteligencia artificial en las GPU de Nvidia.
Las funciones de IA generativa en toda la cartera de software de Google fueron el centro del evento Google I/O 2023 de esta semana, lo cual no fue una sorpresa en absoluto, y el consenso actual es que tal vez Google no esté tan atrás del dúo dinámico OpenAI/Microsoft como podría haberlo hecho. Parecía ser el caso cuando el front-end del chatbot Bart de Google para su motor de búsqueda se lanzó en una versión beta pública limitada en marzo. Lo que significa que tal vez OpenAI y Microsoft podrían no terminar siendo un duopolio en software y hardware de IA al igual que Microsoft e Intel fueron un duopolio en la PC hace cuatro décadas que se extendió al centro de datos a partir de hace tres décadas.
Irónicamente, OpenAI es el proveedor de software y Microsoft Azure es el proveedor de hardware en este duopolio posiblemente emergente. Se dice que Microsoft usó 10 000 GPU Nvidia A100 para entrenar el modelo de lenguaje grande GPT 4 de OpenAI y se rumorea que está acumulando 25 000 GPU para entrenar el sucesor de GPT 5. Suponemos que será en una combinación de GPU Nvidia A100 y H100, porque tener en sus manos 25 000 GPU H100 podría ser un desafío, incluso para Microsoft y OpenAI.
Los clientes fuera de Microsoft y OpenAI que usan la nube de Azure están más limitados en lo que pueden tener en sus manos. Lo que sí sabemos, gracias a una conversación reciente con Nidhi Chappell, gerente general de Azure HPC e IA en Microsoft, es que Azure no está haciendo nada extraño cuando se trata de construir sus supercomputadoras de IA. Microsoft está utilizando placas de GPU HGX-H100 estándar de ocho vías y un nodo de host Intel "Sapphire Rapids" Xeon SP de dos sockets de Nvidia, así como sus conmutadores Quantum 2 InfiniBand de 400 Gb/seg e interfaces de red ConnectX-7 para vincular el nodos entre sí, para construir sus instancias de Azure, que escalan en bloques de 4000 GPU o 500 nodos.
Google se refiere a las instancias de GPU A3 como "supercomputadoras", y dado que van a estar interconectadas usando la misma red de conmutación de circuitos ópticos (OCS) "Apollo" que es la columna vertebral de la red de Google, ¿por qué no llamar a un montón de A3s una supercomputadora. La red Apollo OCS se puede reconfigurar para diferentes topologías y, entre sus otros trabajos de interconexión del centro de datos, se utiliza para vincular los nodos TPUv4 entre sí en esos 4096 pods de TPU. La capa OCS reemplaza la capa espinal en una topología Clos de hoja/espina dorsal. (Tenemos que profundizar en esto un poco más).
Las instancias A3 se basan en las mismas placas de sistema HGX-H100 y los mismos sistemas host Sapphire Rapids que provienen directamente de Nvidia como una unidad y que son utilizados por otros hiperescaladores y desarrolladores de nube para implementar los aceleradores de GPU "Hopper" GH100 SXM5. Las ocho GPU en la tarjeta HGX-H100 utilizan una interconexión NVSwitch sin bloqueo que tiene 3,6 TB/seg de ancho de banda bi-seccional que vincula de manera efectiva las GPU y sus memorias en un solo complejo de cómputo de GPU similar a NUMA que comparte memoria a través de su calcular. El nodo host ejecuta un par de CPU Xeon SP-8480+ Platinum de 56 núcleos de Intel que se ejecutan a 2 GHz, que es la parte de uso general del contenedor superior para servidores de dos zócalos. La máquina de costo está configurada con 2 TB de memoria DDR5 a 4,8 GHz.
Los anfitriones de Google también hacen uso de la IPU "Mount Evans" que Google codiseñó con Intel, que tiene 200 Gb/s de ancho de banda, así como un motor de procesamiento de paquetes personalizado que se puede programar en el lenguaje de programación P4 y 16 núcleos Neoverse N1. para procesamiento auxiliar en la gran protuberancia en el alambre. Google tiene su propia "pila de comunicación de GPU entre servidores", así como optimizaciones de NCCL, de las cuales suponemos que al menos partes se ejecutan en la IPU de Mount Evans.
Google dice que una supercomputadora A3 puede escalar a 26 exaflops de rendimiento de IA, lo que suponemos que significa precisión FP8 o INT8. Si ese es el caso, un acelerador de GPU H100 tiene una potencia máxima de 3958 teraflops, y eso significa que a 26 exaflops una supercomputadora A3 tiene 6569 GPU, lo que equivale a 821 nodos HGX. Eso es aproximadamente un 60 por ciento más grande que lo que Microsoft y Oracle ofrecen comercialmente, 500 nodos y 512 nodos, respectivamente.
Thomas Kurian, director ejecutivo de Google Cloud, dijo en el discurso de apertura de Google I/O que las supercomputadoras TPUv4 existentes eran un 80 % más rápidas para el entrenamiento de IA a gran escala que la maquinaria anterior de Google y un 50 % más baratas que cualquier alternativa en la nube. (Originalmente pensamos que estaba hablando de las configuraciones A3). Entonces, las máquinas A3 tienen una competencia interna intensa.
"Mira, cuando casi duplicas el rendimiento a la mitad del costo, pueden suceder cosas increíbles", dijo Kurian, y tuvo que hacer que la multitud se animara un poco para obtener el aplauso que quería.
En cuanto a la escalabilidad y los precios, veremos cómo se resuelve todo esto, comparando las instancias A3 con las instancias A2 anteriores, que tenían 8 o 16 GPU en un solo host cuando debutaron en marzo de 2021. Para el entrenamiento de IA, el A100 podría solo bajó a FP16 y entregó 624 teraflops, por lo que fue un máximo de 9,984 teraflops agregados para un A100 de 16 vías frente a 31,664 teraflops para un H100 de ocho vías que funciona con una resolución de FP8. Con el mismo número de nodos, la nueva supercomputadora A3 ofrecerá 3,2 veces el rendimiento de la supercomputadora A2, siempre que sus datos y procesamiento puedan reducirse a FP8. Si no, entonces es un aumento del 60 por ciento.
Hasta donde sabemos, Google no ofrece nada parecido a la escala que hemos visto que se usa internamente en Microsoft para OpenAI. También sabemos que Google se ejecuta a una escala mucho mayor para entrenar su modelo de lenguaje grande PaLM 2, probablemente muy por encima de 10,000 dispositivos, pero nadie ha sido específico hasta donde sabemos. PaLM 1 se entrenó en un par de pods TPUv4, cada uno con 3072 TPU y 768 hosts de CPU. No está claro por qué no usó el complemento completo de 4096 TPU por pod, pero Google afirmó una eficiencia computacional del 57,8 por ciento en la ejecución de entrenamiento de PaLM 1.
Google lanzó previamente la serie de máquinas C3 basada en la IPU Mount Evans y los Sapphire Rapids Xeon SP en octubre de 2022 y estuvieron disponibles para una vista previa pública en febrero de este año. Y las instancias G2, basadas en los aceleradores de GPU L4 "Lovelace" de Nvidia para inferencia, han estado en vista previa pública desde marzo de este año, escalando de uno a ocho de los aceleradores de GPU L4 en una sola máquina virtual. Al igual que el H100, el L4 admite procesamiento F8 e INT8, así como precisiones más altas (con una disminución correspondiente en el rendimiento a medida que aumenta la precisión).
El precio de las instancias A3 y G2 aún no está disponible, pero lo estará cuando estén disponibles en general, lo que creemos que será más adelante este año. Estaremos atentos y compararemos los precios cuando podamos.
Una última cosa. Seguimos pensando que Google tiene muchas más GPU que TPU en su flota y que, incluso hoy, en el mejor de los casos podría tener una TPU por cada dos, tres o cuatro GPU que implementa. Es difícil decirlo, pero la flota de GPU de Google es probablemente de 2 a 3 veces el tamaño de la flota de TPU, incluso si la TPU se usa para muchas cargas de trabajo internas en Google e incluso si la proporción está cambiando muy lentamente hacia la TPU. , todavía hay muchas más GPU. Afortunadamente, con la moda de la IA, no habrá ningún problema para encontrar trabajo en esas GPU.
Aún así, la TPU no es compatible con la pila de software Nvidia AI Enterprise, y eso es lo que muchas organizaciones de IA en el mundo usan para entrenar modelos. Google tiene que admitir las GPU si quiere atraer clientes a su nube, y solo después de que estén allí podrá mostrarles los beneficios de la TPU. Amazon Web Services tiene exactamente el mismo problema con sus chips Trainium e Inferentia de cosecha propia, y aunque se rumorea constantemente que Microsoft está haciendo silicio personalizado, todavía no hemos visto ningún motor de cómputo pesado que salga de Azure.
Presentando aspectos destacados, análisis e historias de la semana directamente de nosotros a su bandeja de entrada sin nada en el medio. Suscríbase ahora
