A Rede na Era da IA: Fontes de Demanda e Direções de Inovação
A rede desempenha um papel crucial na era dos grandes modelos de IA. Com o rápido crescimento da escala dos grandes modelos, os clusters de múltiplos servidores tornaram-se a principal forma de resolver o treinamento de modelos, que também é a base para a elevação do status da rede na era da IA. Em comparação com o passado, quando era usada apenas para a transmissão de dados, hoje em dia a rede é mais utilizada para sincronizar os parâmetros do modelo entre as placas gráficas, o que impõe requisitos mais elevados para a densidade e capacidade da rede.
As necessidades de rede para o treinamento de grandes modelos provêm principalmente de três aspectos:
O tamanho do modelo está a crescer rapidamente, e a capacidade de cálculo de uma única placa já não é suficiente para satisfazer a demanda, sendo necessário conectar várias placas em rede para trabalharem em conjunto.
Durante o treinamento em paralelo, após cada cálculo, é necessário realizar o alinhamento de parâmetros entre as placas, o que impõe altas exigências à transmissão e troca de rede.
Durante longos períodos de treinamento, falhas na rede podem causar enormes perdas, exigindo uma estabilidade de rede extremamente alta.
A inovação na rede concentra-se principalmente nas seguintes direções:
Atualização do meio de transmissão: os módulos ópticos, ao buscarem altas taxas de transmissão, também estão explorando rotas de redução de custos como LPO e fotônica de silício. O cabo de cobre ainda possui vantagens em conexões de curta distância. Novas tecnologias como Chiplet e expansão em nível de wafer aceleram a exploração de interconexões baseadas em silício.
Competição de protocolos de rede: protocolos de comunicação entre chips fortemente vinculados a GPUs, como NVLINK, Infinity Fabric, etc. A comunicação entre nós é principalmente a competição entre InfiniBand e Ethernet.
Mudança na Arquitetura da Rede: Embora a arquitetura Leaf-Spine seja amplamente utilizada, à medida que o tamanho dos clusters aumenta, novas arquiteturas como Dragonfly e Rail-only têm potencial para se tornarem a direção de desenvolvimento para superclusters.
Inovação em switches: Além da atualização dos switches elétricos, os switches ópticos também começaram a ganhar destaque, com potencial para desempenhar um papel em grandes clusters.
Interconexão de Data Centers: À medida que a escala de um único centro se aproxima do limite, a interconexão de múltiplos centros torna-se uma nova direção de pesquisa, trazendo novas demandas como módulos ópticos de alta velocidade a longas distâncias.
As recomendações de investimento devem focar em duas direções: a primeira são os elementos centrais do sistema de comunicação, como a Zhongji Xuchuang, a New Yisheng e a Tianfu Communication; a segunda são os elementos inovadores do sistema de comunicação, como a Changfei Optical Fiber e a Shengke Communication.
Os avisos de risco incluem a demanda por IA abaixo das expectativas, a falha da lei de escalabilidade e o aumento da concorrência no setor.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
19 Curtidas
Recompensa
19
5
Compartilhar
Comentário
0/400
GasGuzzler
· 07-20 23:18
Este prato é realmente delicioso.
Ver originalResponder0
GamefiHarvester
· 07-19 20:15
Esta história fala de um idiota
Ver originalResponder0
GraphGuru
· 07-19 20:13
Pessoas hardcore a bater em grandes modelos
Ver originalResponder0
LiquidityWizard
· 07-19 20:07
teoricamente falando, os gargalos de rede têm 73,6% de probabilidade de serem o nosso próximo risco sistêmico... *bebe café às 3 da manhã*
Inovação na rede na era da IA: das necessidades de treinamento de grandes modelos às oportunidades de investimento
A Rede na Era da IA: Fontes de Demanda e Direções de Inovação
A rede desempenha um papel crucial na era dos grandes modelos de IA. Com o rápido crescimento da escala dos grandes modelos, os clusters de múltiplos servidores tornaram-se a principal forma de resolver o treinamento de modelos, que também é a base para a elevação do status da rede na era da IA. Em comparação com o passado, quando era usada apenas para a transmissão de dados, hoje em dia a rede é mais utilizada para sincronizar os parâmetros do modelo entre as placas gráficas, o que impõe requisitos mais elevados para a densidade e capacidade da rede.
As necessidades de rede para o treinamento de grandes modelos provêm principalmente de três aspectos:
O tamanho do modelo está a crescer rapidamente, e a capacidade de cálculo de uma única placa já não é suficiente para satisfazer a demanda, sendo necessário conectar várias placas em rede para trabalharem em conjunto.
Durante o treinamento em paralelo, após cada cálculo, é necessário realizar o alinhamento de parâmetros entre as placas, o que impõe altas exigências à transmissão e troca de rede.
Durante longos períodos de treinamento, falhas na rede podem causar enormes perdas, exigindo uma estabilidade de rede extremamente alta.
A inovação na rede concentra-se principalmente nas seguintes direções:
Atualização do meio de transmissão: os módulos ópticos, ao buscarem altas taxas de transmissão, também estão explorando rotas de redução de custos como LPO e fotônica de silício. O cabo de cobre ainda possui vantagens em conexões de curta distância. Novas tecnologias como Chiplet e expansão em nível de wafer aceleram a exploração de interconexões baseadas em silício.
Competição de protocolos de rede: protocolos de comunicação entre chips fortemente vinculados a GPUs, como NVLINK, Infinity Fabric, etc. A comunicação entre nós é principalmente a competição entre InfiniBand e Ethernet.
Mudança na Arquitetura da Rede: Embora a arquitetura Leaf-Spine seja amplamente utilizada, à medida que o tamanho dos clusters aumenta, novas arquiteturas como Dragonfly e Rail-only têm potencial para se tornarem a direção de desenvolvimento para superclusters.
Inovação em switches: Além da atualização dos switches elétricos, os switches ópticos também começaram a ganhar destaque, com potencial para desempenhar um papel em grandes clusters.
Interconexão de Data Centers: À medida que a escala de um único centro se aproxima do limite, a interconexão de múltiplos centros torna-se uma nova direção de pesquisa, trazendo novas demandas como módulos ópticos de alta velocidade a longas distâncias.
As recomendações de investimento devem focar em duas direções: a primeira são os elementos centrais do sistema de comunicação, como a Zhongji Xuchuang, a New Yisheng e a Tianfu Communication; a segunda são os elementos inovadores do sistema de comunicação, como a Changfei Optical Fiber e a Shengke Communication.
Os avisos de risco incluem a demanda por IA abaixo das expectativas, a falha da lei de escalabilidade e o aumento da concorrência no setor.