banner
Hogar / Blog / Meta, MIT y otros prueban brazo robótico en infraestructura de IA óptica
Blog

Meta, MIT y otros prueban brazo robótico en infraestructura de IA óptica

Jun 23, 2023Jun 23, 2023

Por Agam Shah

19 de abril de 2023

Investigadores de Meta, MIT y otras instituciones conectaron servidores con una docena de GPU Nvidia con interruptores ópticos y un brazo robótico, ideando una nueva interconexión que podría usarse para el aprendizaje automático. El tejido, llamado "TopoOpt", puede crear topologías de red sobre la marcha según las necesidades informáticas. La tecnología surge cuando las computadoras de alto rendimiento se ven sometidas a una mayor adopción de tecnologías de IA como ChatGPT, que está poniendo a prueba los límites de la supercomputación de IA de Microsoft.

Se presentó un documento sobre la tecnología en el Simposio USENIX sobre diseño e implementación de sistemas en red que se llevó a cabo esta semana.

TopoOpt utiliza algoritmos para encontrar las técnicas informáticas paralelas más rápidas en función de información como los requisitos de procesamiento, los recursos informáticos disponibles, las técnicas de enrutamiento de datos y la topología de la red. Los investigadores también mejoraron la función AllReduce de Nvidia, que minimiza el tiempo de comunicación entre las GPU y otros componentes.

"TopoOpt crea particiones dedicadas para cada trabajo de capacitación utilizando interruptores ópticos y paneles de conexión reconfigurables, y optimiza conjuntamente la topología y la estrategia de paralelización dentro de cada partición", escribieron los investigadores.

Los investigadores probaron TopoOpt dentro de la infraestructura Meta, utilizando una docena de servidores Asus ESC4000A-E10, cada uno equipado con una GPU A100, NIC HPE y una NIC Mellanox ConnectX5 de 100 Gbps. Las NIC tenían transceptores ópticos con fibras de ruptura.

"TopoOpt es el primer sistema que optimiza conjuntamente la topología y la estrategia de paralelización para las cargas de trabajo de ML y actualmente se está evaluando para su implementación en Meta", dijeron los investigadores.

La configuración también utiliza un panel de conexión de Telescent que reconfigura una red utilizando "un brazo robótico que toma una fibra en el lado de transmisión y la conecta a una fibra en el lado de recepción", dijo el periódico. El brazo robótico, que está controlado por software, se mueve hacia arriba y hacia abajo para conectar la fibra transmisora ​​con una fibra receptora en cualquier parte del sistema. Eso proporciona la flexibilidad y la elasticidad necesarias para reconfigurar rápidamente una red. Los paneles de conexión ya se utilizan ampliamente en aplicaciones comerciales, pero ahora se proponen para su uso en centros de datos.

Google presentó recientemente un documento que detalla cómo utilizó una supercomputadora de IA con interruptores de circuitos ópticos para mejorar las velocidades de entrenamiento en sus chips TPU v4 y mantener bajo el consumo de energía. La conmutación de circuitos ópticos (OCS) en la configuración de Google no es tan móvil como un brazo robótico, pero usa espejos para cambiar entre las fibras de entrada y salida. La configuración de Google también fue un banco de pruebas más grande, con una implementación a escala en 4096 TPU.

Los investigadores optaron por el panel de conexión porque descubrieron que los conmutadores ópticos al estilo de Google eran "cinco veces más caros" y que también admitían menos puertos. Al mismo tiempo, los investigadores dijeron que la tecnología OCS, como la que se usa en Google, está diseñada para implementaciones a escala. "La principal ventaja de los OCS es que su latencia de reconfiguración es cuatro órdenes de magnitud más rápida que los paneles de conexión", escribieron los investigadores.

TopoOpt aprovisiona previamente los requisitos informáticos y de red, y está listo para funcionar una vez que los servidores están listos y la tarea está lista para implementarse. "Ya conocemos la secuencia de llegadas de trabajos y la cantidad de servidores requeridos por cada trabajo", escribieron los investigadores, y agregaron que "este diseño permite que cada servidor participe en dos topologías independientes".

Los investigadores concluyeron que TopoOpt proporcionó un tiempo de iteración de entrenamiento 3,4 veces más rápido que otra técnica llamada "árbol gordo", en la que la red troncal es la pieza central de la infraestructura, que luego distribuye datos a múltiples capas de conmutadores estáticos que vinculan el back-end de red central. hardware a los servidores front-end. Esa técnica es muy utilizada hoy en día.

El uso de redes ópticas en un centro de datos es un concepto nuevo, y los investigadores están introduciendo el brazo robótico y un nuevo protocolo de comunicación como una forma más económica de construir una infraestructura de redes de IA. Meta está probando la viabilidad de la tecnología.