A dança do caos no campo da IA: dos Transformers à batalha dos cem modelos
No mês passado, houve uma intensa "guerra dos animais" na indústria de IA. De um lado, um modelo de lhamas lançado por um gigante da tecnologia, que se tornou muito popular entre os desenvolvedores devido à sua natureza open source. Do outro lado, um grande modelo chamado "Falcão", que, após seu lançamento em maio, superou a lhama e chegou ao topo do ranking de LLMs open source.
Curiosamente, os desenvolvedores do "Falcão" não são uma empresa de tecnologia, mas sim um instituto de pesquisa localizado nos Emirados Árabes Unidos. O ministro da Inteligência Artificial dos Emirados Árabes Unidos foi posteriormente selecionado para a lista das "100 Pessoas Mais Influentes em AI" da revista Time.
Hoje, o campo da IA entrou na fase do "caos total". Qualquer país ou empresa com recursos financeiros suficientes está desenvolvendo seu próprio modelo de linguagem grande. Apenas nos países do Golfo, há mais de um jogador nesta competição.
Um investidor reclamou: "Naquela época, não respeitava a inovação dos modelos de negócios da internet, achava que não havia barreiras. Não esperava que o empreendedorismo de grandes modelos de tecnologia também resultasse em uma batalha de centenas de modelos..."
Como é que a tecnologia dura, que antes era considerada de alta dificuldade, se transformou numa situação de um país, um modelo, a florescer por toda a parte?
O Transformer mudou as regras do jogo
Atualmente, os países e empresas podem perseguir grandes modelos, graças ao famoso artigo "Attention Is All You Need" publicado em 2017. Este artigo revelou o algoritmo Transformer, que se tornou o ponto de partida para esta onda de entusiasmo pela IA. Hoje em dia, grandes modelos, independentemente da nacionalidade, são todos baseados na arquitetura Transformer.
Antes disso, "ensinar máquinas a ler" era um problema acadêmico reconhecido. Quando os humanos leem, não se concentram apenas nas palavras e frases atuais, mas também combinam o contexto para entender. As redes neurais iniciais tinham dificuldade em fazer isso, até que a introdução das redes neurais recorrentes (RNN) em 2014 trouxe um avanço.
No entanto, as RNNs enfrentam o problema da ineficiência, tornando difícil lidar com uma grande quantidade de parâmetros. O surgimento do Transformer resolveu esse problema, substituindo o design cíclico das RNNs por codificação de posição, permitindo o cálculo paralelo e aumentando significativamente a eficiência do treinamento. Essa mudança levou a IA a entrar na era dos grandes modelos.
Transformer rapidamente se tornou a solução mainstream no campo do processamento de linguagem natural. Ele transformou grandes modelos de uma questão de pesquisa teórica em um puro problema de engenharia - desde que haja poder computacional e dados suficientes, qualquer empresa com capacidade técnica pode criar grandes modelos.
Como disse um cientista da computação, a IA está se tornando uma tecnologia geral, semelhante à eletricidade e à internet. Embora alguns grandes modelos de certas empresas ainda estejam à frente, os analistas esperam que outros gigantes da tecnologia consigam rapidamente desenvolver produtos de nível comparável.
Reflexões por trás da Batalha dos Cem Modelos
Até julho deste ano, o número de grandes modelos na China já alcançou 130, superando os Estados Unidos. Além da China e dos Estados Unidos, alguns países mais ricos também lançaram seus próprios grandes modelos, como Japão, Emirados Árabes Unidos, Índia, Coreia do Sul, entre outros.
Esta situação lembra a era da bolha da internet. Mas o fácil acesso não significa que todos possam se tornar gigantes na era da IA. Tomando como exemplo os grandes modelos de código aberto, a comunidade ativa de desenvolvedores é a sua verdadeira vantagem competitiva. Um gigante das redes sociais compreende bem isso, e sua série de grandes modelos de código aberto já se tornou um indicador de tendência neste campo.
No entanto, a maioria dos grandes modelos ainda apresenta uma diferença significativa de desempenho em relação aos produtos de topo. Os resultados mais recentes dos testes AgentBench mostram que a pontuação do segundo classificado é inferior a dois terços da do primeiro. Essa diferença resulta da excelente equipe de cientistas e da experiência acumulada ao longo do tempo das principais empresas.
A capacidade central dos grandes modelos não está apenas na quantidade de parâmetros, mas na construção do ecossistema ( para modelos de código aberto ) ou na pura capacidade de inferência ( para modelos fechados ). Com o desenvolvimento da comunidade de código aberto, o desempenho de vários grandes modelos pode convergir.
O maior desafio está na comercialização. Com algumas exceções, a maioria das empresas de IA ainda não encontrou um modelo de lucro após investir enormes custos. Mesmo as empresas líderes da indústria enfrentam dificuldades na precificação de produtos de IA.
Os altos custos de poder de processamento tornaram-se um obstáculo para o desenvolvimento da indústria. Estima-se que os gastos anuais das empresas de tecnologia em infraestrutura de grandes modelos possam ultrapassar em muito a receita que geram, resultando em uma enorme lacuna.
Embora os produtos inovadores de algumas empresas tenham provocado esta revolução da IA, ainda há dúvidas sobre o valor que pode ser criado apenas com o treinamento de grandes modelos. Com o aumento da concorrência e o aumento dos modelos de código aberto, os fornecedores de grandes modelos puros podem enfrentar uma pressão maior.
Assim como o sucesso do iPhone 4 não está apenas no seu processador, mas sim na sua capacidade de rodar uma variedade de aplicações. O verdadeiro valor da IA pode também se manifestar nas aplicações concretas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
22 Curtidas
Recompensa
22
5
Compartilhar
Comentário
0/400
SignatureCollector
· 08-03 13:36
Dançando com os demônios? Melhor chamar de corrida de muitos modelos.
Ver originalResponder0
GateUser-2fce706c
· 08-01 18:24
A senha da riqueza está à vista. O que não se consegue agarrar são idiotas.
Ver originalResponder0
CoffeeOnChain
· 08-01 18:24
Ah, tornou-se novamente um jogo de capital.
Ver originalResponder0
MEV_Whisperer
· 08-01 18:16
Fazer IA não é tão divertido quanto negociar criptomoedas.
Ver originalResponder0
NFT_Therapy
· 08-01 18:13
Boa rapaz, ter muito dinheiro é realmente divertido.
Os grandes modelos de IA estão florescendo, mas a comercialização é difícil.
A dança do caos no campo da IA: dos Transformers à batalha dos cem modelos
No mês passado, houve uma intensa "guerra dos animais" na indústria de IA. De um lado, um modelo de lhamas lançado por um gigante da tecnologia, que se tornou muito popular entre os desenvolvedores devido à sua natureza open source. Do outro lado, um grande modelo chamado "Falcão", que, após seu lançamento em maio, superou a lhama e chegou ao topo do ranking de LLMs open source.
Curiosamente, os desenvolvedores do "Falcão" não são uma empresa de tecnologia, mas sim um instituto de pesquisa localizado nos Emirados Árabes Unidos. O ministro da Inteligência Artificial dos Emirados Árabes Unidos foi posteriormente selecionado para a lista das "100 Pessoas Mais Influentes em AI" da revista Time.
Hoje, o campo da IA entrou na fase do "caos total". Qualquer país ou empresa com recursos financeiros suficientes está desenvolvendo seu próprio modelo de linguagem grande. Apenas nos países do Golfo, há mais de um jogador nesta competição.
Um investidor reclamou: "Naquela época, não respeitava a inovação dos modelos de negócios da internet, achava que não havia barreiras. Não esperava que o empreendedorismo de grandes modelos de tecnologia também resultasse em uma batalha de centenas de modelos..."
Como é que a tecnologia dura, que antes era considerada de alta dificuldade, se transformou numa situação de um país, um modelo, a florescer por toda a parte?
O Transformer mudou as regras do jogo
Atualmente, os países e empresas podem perseguir grandes modelos, graças ao famoso artigo "Attention Is All You Need" publicado em 2017. Este artigo revelou o algoritmo Transformer, que se tornou o ponto de partida para esta onda de entusiasmo pela IA. Hoje em dia, grandes modelos, independentemente da nacionalidade, são todos baseados na arquitetura Transformer.
Antes disso, "ensinar máquinas a ler" era um problema acadêmico reconhecido. Quando os humanos leem, não se concentram apenas nas palavras e frases atuais, mas também combinam o contexto para entender. As redes neurais iniciais tinham dificuldade em fazer isso, até que a introdução das redes neurais recorrentes (RNN) em 2014 trouxe um avanço.
No entanto, as RNNs enfrentam o problema da ineficiência, tornando difícil lidar com uma grande quantidade de parâmetros. O surgimento do Transformer resolveu esse problema, substituindo o design cíclico das RNNs por codificação de posição, permitindo o cálculo paralelo e aumentando significativamente a eficiência do treinamento. Essa mudança levou a IA a entrar na era dos grandes modelos.
Transformer rapidamente se tornou a solução mainstream no campo do processamento de linguagem natural. Ele transformou grandes modelos de uma questão de pesquisa teórica em um puro problema de engenharia - desde que haja poder computacional e dados suficientes, qualquer empresa com capacidade técnica pode criar grandes modelos.
Como disse um cientista da computação, a IA está se tornando uma tecnologia geral, semelhante à eletricidade e à internet. Embora alguns grandes modelos de certas empresas ainda estejam à frente, os analistas esperam que outros gigantes da tecnologia consigam rapidamente desenvolver produtos de nível comparável.
Reflexões por trás da Batalha dos Cem Modelos
Até julho deste ano, o número de grandes modelos na China já alcançou 130, superando os Estados Unidos. Além da China e dos Estados Unidos, alguns países mais ricos também lançaram seus próprios grandes modelos, como Japão, Emirados Árabes Unidos, Índia, Coreia do Sul, entre outros.
Esta situação lembra a era da bolha da internet. Mas o fácil acesso não significa que todos possam se tornar gigantes na era da IA. Tomando como exemplo os grandes modelos de código aberto, a comunidade ativa de desenvolvedores é a sua verdadeira vantagem competitiva. Um gigante das redes sociais compreende bem isso, e sua série de grandes modelos de código aberto já se tornou um indicador de tendência neste campo.
No entanto, a maioria dos grandes modelos ainda apresenta uma diferença significativa de desempenho em relação aos produtos de topo. Os resultados mais recentes dos testes AgentBench mostram que a pontuação do segundo classificado é inferior a dois terços da do primeiro. Essa diferença resulta da excelente equipe de cientistas e da experiência acumulada ao longo do tempo das principais empresas.
A capacidade central dos grandes modelos não está apenas na quantidade de parâmetros, mas na construção do ecossistema ( para modelos de código aberto ) ou na pura capacidade de inferência ( para modelos fechados ). Com o desenvolvimento da comunidade de código aberto, o desempenho de vários grandes modelos pode convergir.
O maior desafio está na comercialização. Com algumas exceções, a maioria das empresas de IA ainda não encontrou um modelo de lucro após investir enormes custos. Mesmo as empresas líderes da indústria enfrentam dificuldades na precificação de produtos de IA.
Os altos custos de poder de processamento tornaram-se um obstáculo para o desenvolvimento da indústria. Estima-se que os gastos anuais das empresas de tecnologia em infraestrutura de grandes modelos possam ultrapassar em muito a receita que geram, resultando em uma enorme lacuna.
Embora os produtos inovadores de algumas empresas tenham provocado esta revolução da IA, ainda há dúvidas sobre o valor que pode ser criado apenas com o treinamento de grandes modelos. Com o aumento da concorrência e o aumento dos modelos de código aberto, os fornecedores de grandes modelos puros podem enfrentar uma pressão maior.
Assim como o sucesso do iPhone 4 não está apenas no seu processador, mas sim na sua capacidade de rodar uma variedade de aplicações. O verdadeiro valor da IA pode também se manifestar nas aplicações concretas.