InfiniBand - Alimenter des Supercalculateurs d'IA de Nouvelle Génération

Les usines d'IA gèrent des workflows massifs et des modèles fondamentaux tels que les LLM, nécessitant une mise à l'échelle transparente sur des milliers de GPU avec une mise en réseau ultra-fiable pour maximiser l'utilisation des ressources. InfiniBand, avec une latence ultra-faible, une bande passante inégalée et des performances RDMA natives sans perte, est devenu le standard de facto pour les charges de travail des usines d'IA. Sa mise en réseau haute performance de bout en bout permet la formation à l'IA, l'analyse en temps réel et le calcul scientifique, parfaitement adaptés aux environnements IA à haute densité.

Capacités

Topologie

Solutions

Avantages

Portefeuille

Contactez-nous

Conçue Spécialement pour les Charges de Travail d'IA Hautes Performances

Le routage adaptatif, le calcul en réseau et l'architecture de contrôle de congestion permettent à InfiniBand de répondre aux exigences rigoureuses des clusters HPC et IA. Ces optimisations garantissent un flux de données transparent, éliminent les goulots d'étranglement et permettent une utilisation efficace des ressources, ce qui se traduit par des performances supérieures et une efficacité opérationnelle accrue pour les infrastructures complexes.

Haute Performance, Faible Latence

InfiniBand atteint une latence de bout en bout aussi faible que 2 µs et une latence de commutation jusqu'à 230 nanosecondes (NDR), idéale pour les charges de travail d'IA/ML qui reposent sur un traitement rapide des données. Cela réduit les délais de communication, accélérant ainsi les cycles de formation and d'inférence des modèles.

Transmission sans Perte avec Contrôle de Flux Basé sur le Crédit

Avec un contrôle de flux basé sur le crédit, InfiniBand fournit un réseau véritablement sans perte, atténuant la perte de paquets et garantissant qu'aucune donnée n'est perdue pendant le transfert, ce qui est essentiel pour une gestion fiable des données à grande échelle.

Routage Adaptatif pour une Répartition Optimale de la Charge

Le routage multipath adaptatif équilibre dynamiquement le trafic en sélectionnant les chemins optimaux en fonction de la congestion en temps réel. Il réduit les goulots d'étranglement, augmente le débit et améliore l'efficacité globale du réseau, ce qui fait d'InfiniBand idéale pour les environnements où la charges de données est fluctuante.

Calcul en Réseau avec le Protocole SHARP

Le protocole SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) permet l'agrégation de données au sein du réseau, réduisant ainsi la latence et le mouvement des données. En déchargeant les opérations collectives de l'unité centrale vers le réseau, SHARP améliore le débit des données et maximise l'utilisation de la bande passante, accélérant ainsi les tâches à forte intensité de calcul.

Évolutivité avec des Topologies Flexibles

Prenant en charge jusqu'à 48 000 nœuds dans un seul sous-réseau, il élimine les surcharges ARP et de diffusion. Les topologies avancées, notamment Fat-Tree, Dragonfly+ et Torus multidimensionnel, offrent des configurations flexibles et performantes adaptées aux besoins spécifiques des applications.

Stabilité et Résilience Grâce à la Technologie d'Auto-Guérison

La technologie de réseau d'auto-guérison réduit les temps de récupération du réseau à une milliseconde, garantissant une haute disponibilité et une résilience élevée pour des opérations d'IA et de traitement de données ininterrompues.

Architecture Évolutive pour des Performances Optimales d'IA

InfiniBand Fat-tree 2-tier Topology in AI Networking

La topologie Fat-Tree est largement reconnue comme une architecture optimale pour les clusters de GPU d'IA basés sur InfiniBand, garantissant une bande passante constante et un débit élevé pour les déploiements à grande échelle. En exploitant du matériel de pointe comme les GPU NVIDIA H100 et H200, la plateforme DGX et des solutions émergentes telles que GB200, cette topologie est particulièrement adaptée à la gestion des charges de travail intensives d'IA. Par exemple, avec les switches Quantum-2 et les adaptateurs/NICs ConnectX-7 offrant 8 ports simples 400G par nœud, une configuration Fat-Tree à 3 niveaux peut évoluer pour prendre en charge jusqu'à 65 000 GPU, tandis qu'une configuration à 2 niveaux, plus courante, gère efficacement les clusters jusqu'à 2 000 GPU.

Solutions de Réseau InfiniBand de NADDOD pour les Applications AI/ML

Solutions flexibles adaptées aux différentes tailles de clusters d'IA, aux agencements des centres de données et aux distances de connexion.

800G SR8 InfiniBand solution for AI data center

Clusters InfiniBand à Petite Échelle - Solutions Multimodes

Les modules multimodes offrent des performances fiables et économiques sur de courtes distances.

Cas d'Utilisation :

En pratique courante, les connexions Serveur-Leaf et Leaf-Spine dorsale sont inférieures à 50 mètres.

Switches Leaf-Spine : émetteurs-récepteurs multimodes 800G OSFP 2xSR4

Switches Serveur-Leaf : émetteurs-récepteurs multimodes 400G OSFP SR4

Solutions de Câbles Monomode + DAC pour Clusters d'IA de Taille Moyenne à Grande

Les module optiques monomodes permettent des connexions stables sur de longues distances, tandis que les câbles DAC réduisent les coûts et la consommation d'énergie. Ensemble, ils constituent une solution efficace pour les clusters de taille moyenne à grande. Les câbles DAC nécessite une planification minutieuse de l'agencement en raison de leurs distances plus courtes et du câblage plus épais.

800G DR8 InfiniBand solution for AI data center

Modules SFP Monomodes + Câbles DAC/ACC 800G

Cas d'Utilisation :

Switches Leaf et Spine colocalisés ou dans des baies adjacentes pour des connexions DAC à courte distance. Des modules monomodes gèrent les distances plus longues serveur-Leaf avec des performances à grande vitesse et à faible latence.

Produits :

Switches Leaf-Spine : câbles OSFP DAC/ACC 800G (prend en charge jusqu'à 5 mètres)

Switches Serveur-Leaf : émetteurs-récepteurs monomodes 800G OSFP 2xDR4 et 400G OSFP DR4 (tous deux prennent en charge jusqu'à 100 mètres)

800G FR8 InfiniBand solution for AI data center

Modules SFP Monomodes + Câbles Breakout DAC/ACC

Cas d'Utilisation :

Les câbles breakout DAC connectent les serveurs aux switches Leaf dans les baies adjacentes. Pour les distances Leaf-Spine supérieures à 50 mètres et jusqu'à 2 kilomètres, les modules monomodes offrent une connectivité fiable et performante.

Produits :

Switches Serveur-Leaf : câbles DAC/ACC OSFP 800G breakout (prise en charge jusqu’à 5 mètres)

Switches Spine-Leaf : 800G OSFP 2xFR4 (prend en charge jusqu'à 2 kilomètres ; convient aux connexions entre bâtiments) ou 800G OSFP 2xDR4 (optimisé pour les distances inférieures à 500 mètres avec une densité de ports élevée)

Problèmes de Réseau Courants Affectant l'Efficacité de la Formation à l'IA

80 % des Interruptions de Formation à l'IA proviennent de Problèmes de Réseau.

95 % des Problèmes Réseau sont souvent Liés à des Interconnexions Optiques Défectueuses

Common Network Issues Affecting AI Training Efficency

NADDOD - Protection des Clusters d'IA Contre les Interruptions d'Apprentissage

Les Puces DSP et VCSEL de Broadcom, Offrent un BER Ultra-faible et une Grande Stabilité.

Les optiques InfiniBand de NADDOD sont équipées de VCSEL Broadcom pour une stabilité optique améliorée, garantissant des performances fiables dans des conditions exigeantes. Alimentés par le DSP Broadcom pour une optimisation avancée des algorithmes, les modules InfiniBand NDR de NADDOD atteignent un BER pré-FEC de 1E-8 à 1E-10 et une transmission sans erreur post-FEC, égalant les performances des produits originaux de NVIDIA.

Le RS-FEC (544,514) gère les scénarios de correction d'erreurs élevée, tandis que le LL-FEC (272,257+1) est conçu pour les scénarios à faible latence et haute performance. Les optiques NADDOD excellent dans les deux cas, atteignant zéro erreur binaire sous LL-FEC d'ordre 6, surpassant ainsi de nombreux concurrents. Cette synergie entre le VCSEL et le DSP de Broadcom garantit une transmission de données ultra-fiable, répondant aux exigences strictes des déploiements AI InfiniBand.

Gamme de Produits InfiniBand NADDOD pour les Charges de Travail d'IA

Émetteurs-récepteurs et câbles InfiniBand

Les options de connectivité NVIDIA Quantum-2 permettent des topologies flexibles avec une grande variété d'émetteurs-récepteurs, de connecteurs MPO, de câbles ACC, DAC avec différents types de séparateurs 1-2 ou 1-4. La rétrocompatibilité permet de connecter des clusters de 400 Gb/s aux infrastructures existantes de 200 Gb/s ou 100 Gb/s, assurant une évolutivité et une intégration transparentes.

Optiques InfiniBand NDR

Adaptateurs/NICs InfiniBand

L'adaptateur InfiniBand NVIDIA ConnectX-7 offre des performances inégalées pour les charges de travail d'IA et de HPC. Prenant en charge PCIe Gen4 et Gen5, il propose des ports réseau simples ou doubles avec des vitesses allant jusqu'à 400 Gb/s, disponibles dans plusieurs facteurs de forme pour répondre à divers besoins de déploiement.

Les capacités avancées d'informatique en réseau (In-Network Computing) et les moteurs programmables intégrés au ConnectX-7 permettent un prétraitement efficace des algorithmes de données et le déchargement des chemins de contrôle des applications directement sur le réseau. Ces fonctionnalités optimisent les performances, réduisent la latence et améliorent l'évolutivité des applications exigeantes.

Adaptateur ConnectX-7

Switches InfiniBand

Les switches NVIDIA Quantum-2 prennent en charge jusqu'à 64 ports de 400 Gb/s ou 128 ports de 200 Gb/s en utilisant 32 connecteurs OSFP. Le format compact 1U est disponible avec des options de refroidissement par air ou par liquide, offrant une flexibilité pour une gestion interne ou externe.

Offrant un débit bidirectionnel agrégé de 51,2 Tbit/s et traitant plus de 66,5 milliards de paquets par seconde (pps), les switches Quantum-2 répondent aux exigences des réseaux haute performance d'IA et HPC.

Switches Quantum-2