"Wenxinyiyan parece ter sido lançado às pressas. Acho que isso não é para ganhar dinheiro, mas para acompanhar o boom do ChatGPT. O grande modelo da indústria é o que realmente pode gerar valor comercial." Wenxinyiyan, um ex-funcionário da Baidu disse à Titanium Media: "Quando o OpenAI não era tão popular no ano passado, o Sr. Wang (Baidu CTO Wang Haifeng) liderou uma equipe para construir 10 modelos em grande escala, incluindo modelos industriais em grande escala. Naquela época , não houve muita atenção fora da indústria, mas se você olhar para o layout do Baidu agora, o grande modelo da indústria é na verdade um layout voltado para o futuro, anterior ao OpenAI e à Microsoft."
Hoje, após a agitação dos modelos de grande escala de uso geral, os modelos da indústria estão gradualmente ganhando força, o que também confirma essa realidade: modelos básicos de grande escala, como o ChatGPT, ganham "choro", que desempenha um papel importante na educação do mercado e moldar a cognição, a inteligência artificial realmente vai ser implementada e ganhar o dinheiro atual, mas também depende do grande modelo da indústria.
Mesmo em mercados estrangeiros, o ChatGPT, como parte dos atributos dos produtos C-end, enfraqueceu gradualmente. De acordo com dados da SimilarWeb, a taxa de crescimento das visitas do ChatGPT no estágio inicial foi surpreendente. A taxa de crescimento mensal foi de 131,6 % em janeiro e 62,5% em fevereiro, 55,8% em março, desacelerando significativamente em abril, com uma taxa de crescimento mensal de 12,6%. espera-se que a taxa de crescimento mensal em junho possa ser negativa.
"Acredito que muitos de nós já experimentamos o ChatGPT, e acredito que muitas pessoas o deixaram de lado depois de experimentá-lo, porque está basicamente separado do nosso trabalho no momento, então o deixamos de lado depois de usá-lo. Mas ainda espero que nem todo mundo vai "acordar cedo e pegar o último episódio", porque esta é uma revolução de paradigma que trará mudanças subversivas." O diretor de tecnologia (CTO) da Microsoft (China) Wei Qing disse anteriormente.
A solução B-side baseada em ChatGPT ou modelos grandes é uma boa maneira de resolver a separação entre modelos grandes e cenas.
Internacionalmente, grandes empresas como Microsoft e Amazon também começaram a buscar caminhos de comercialização de serviços de nível empresarial e começaram a explorar vários setores; domesticamente, Baidu, Alibaba, Tencent e Huawei estão acelerando o investimento na indústria de grande escala modelos. Além disso, muitos líderes da indústria e empresas iniciantes em todo o mundo também estão explorando a perspectiva de modelos de indústria em larga escala. Recentemente, a Comissão Municipal de Ciência e Tecnologia de Pequim e o Comitê de Gestão de Zhongguancun também lançaram o primeiro lote de 10 casos de aplicação de modelos de indústria de inteligência artificial em grande escala em Pequim. Além disso, a quantidade de fusões e aquisições de rotas de tecnologia relacionadas também atingiu novos recordes...
Mas a trilha do modelo em grande escala está longe de estar lotada - com o rápido desenvolvimento da iteração tecnológica, todas as esferas da vida estão reacumulando conhecimento técnico e moldando modelos de negócios, e tudo apenas começou.
Atualização: Guerra dos Mil Modelos
Se o modelo básico é uma "guerra de cem modelos", o modelo de grande escala da indústria é uma "guerra de mil modelos". . unânime.
"Embora todos tenham grandes expectativas para o modelo de grande escala de uso geral, não é necessariamente a solução ideal para atender às necessidades dos cenários da indústria." Em 19 de junho, na Tencent Cloud Industry Large-scale Model Conference, Senior Executive Vice Presidente do Tencent Group, Cloud e Tang Daosheng, CEO do Smart Industry Business Group, disse.
Caso o Hunyuan Assistant não o tenha divulgado ao público, a Tencent assumiu a liderança no lançamento de modelos industriais de grande escala. Contando com a plataforma Tencent Cloud TI para criar uma seleção de modelos industriais de grande escala, ela oferece aos clientes um interrompe os serviços MaaS e ajuda os clientes corporativos a criar modelos exclusivos de grande escala e aplicativos inteligentes. É aprendido com a Tencent que a Tencent divulgará informações oficiais sobre o modelo geral do C-end no futuro.
Esta série de medidas pode ser entendida como, independentemente do efeito e progresso do modelo básico Hunyuan em larga escala por enquanto, o lançamento prioritário do modelo industrial em larga escala é um movimento necessário para a Tencent garantir sua própria voz e aproveitar os clientes do mercado quando os clientes estão em necessidade urgente.
Anteriormente, Tian Qi, cientista-chefe no campo de inteligência artificial da Huawei Cloud, mencionou que a Huawei divide o modelo grande em três níveis, L0, L1, L2 e L0 é o que todos chamam de modelo geral básico, como GPT-3 , no modelo básico L0 Com base em , mais dados da indústria, o modelo grande da indústria obtido pelo treinamento misto é L1.
Em seguida, L1 é implantado para cenários de subdivisão específicos de milhares de indústrias a jusante, e o modelo de tarefa L2 dos cenários de subdivisão é obtido. A fim de reduzir os custos de produção e melhorar a eficiência o mais rápido possível, como produzir rapidamente modelos L2 a partir dos grandes modelo de indústria L1 e Implantar o modelo L2 no lado do dispositivo, lado da borda e lado da nuvem é uma questão muito importante.
Pode ser visto na agenda da próxima Huawei Developer Conference em julho que a Huawei Cloud conduzirá uma série de interpretações e lançamentos sobre como o modelo Pangu foi refinado de um modelo básico para um modelo da indústria.
No Alibaba Cloud Summit deste ano, o Alibaba Cloud CTO Zhou Jingren também disse: "Hoje nem todas as empresas precisam começar o treinamento do zero, nem todos precisam começar do zero para criar uma variedade de corpus, incluindo um grande número de poder de computação recursos, para crescer do zero. Uma série de personalização do modelo, esperamos que com base no modelo Tongyi Qianwen hoje, combinado com o cenário da empresa, sistema de conhecimento empresarial e necessidades especiais da empresa no setor, cada modelo específico da empresa irá ser gerado."
A Microsoft também está criando seu próprio modelo de indústria. Em abril, na China, a versão internacional do Microsoft Azure OpenAI Service lançou os três primeiros conjuntos de cenários da indústria de inovação global do Azure para comércio eletrônico de varejo, manufatura e campos nativos digitais, integrando GPT-3 e GPT-4 para usuários corporativos locais que vão no exterior. , Codex, DALL-E e ChatGPT de nível empresarial, cinco serviços de modelo em grande escala, para ajudar os clientes empresariais chineses no exterior a acelerar sua expansão no mercado global.
A "guerra dos mil modelos" está prestes a estourar, mas ainda é muito cedo para realmente entrar na fase de grandes ondas lavando a areia. De modo geral, os modelos em grande escala ainda estão em um estágio relativamente inicial de desenvolvimento. Embora modelos de grande escala na indústria estão concentrados, obviamente há mais espaço para esta faixa.
Tomando o grande modelo do setor financeiro como exemplo, ele é dividido em diferentes campos, como empresas de valores mobiliários, seguros, bancos e novas finanças.As tarefas posteriores de cada campo são divididas em dezenas ou centenas de subtarefas.
"O momento mais importante é quando, com base no modelo básico, o SFT e outros mecanismos e estruturas podem ser adaptados com eficiência às tarefas a jusante e quando as tarefas a jusante do setor financeiro ou de outros modelos do setor têm um efeito de escala". Chen Haiqing, chefe do Moyuan Innovation Business Center, é apenas o começo dos grandes modelos e cenários do setor para treinamento contínuo por meio de alguns dados universais não estruturados.
Escolha sensata e realista
Se uma empresa deseja criar um modelo básico de larga escala com centenas de bilhões de parâmetros, ela precisa de um poder de computação de mais de 10.000 placas em um cluster de máquina única, não apenas uma placa de GPU, mas também a utilização de recursos de cluster de GPU , o que a maioria das empresas não pode fazer.
O modelo de grande indústria é obviamente mais fácil de realizar e também tem uma perspectiva de aplicação mais ampla.
"Grandes modelos podem capacitar milhares de setores, mas você deve ter um bom entendimento dos cenários de milhares de setores e não pode esperar treinar centenas de bilhões ou trilhões de modelos grandes, que podem ser facilmente usados por usuários corporativos, " disse Zhou Ming, fundador da Lanzhou Technology. "Do modelo geral ao modelo da indústria, é preciso fazer a última milha para o cenário do usuário."
Depois de avaliar o investimento necessário para o modelo básico de grande escala e pesar os prós e contras e os ganhos e perdas, os clientes corporativos rapidamente se voltaram para o modelo industrial de grande escala, e os fabricantes dedicaram mais energia a ele.
Tang Daosheng disse francamente que os atuais modelos de grande escala de propósito geral são geralmente treinados com base em extensa literatura pública e informações de rede. As informações na Internet podem conter erros, rumores e preconceitos. Muitos conhecimentos profissionais e dados da indústria são insuficientemente acumulados, resultando em precisão e precisão específicas do setor do modelo não são suficientes e o "ruído" dos dados é muito grande.
No entanto, em muitos cenários industriais, os usuários têm altos requisitos de serviços profissionais fornecidos pelas empresas e sua tolerância a falhas é baixa. Uma vez que uma empresa fornece informações erradas, pode causar uma enorme responsabilidade legal ou crise de relações públicas. Portanto, os modelos de grande escala usados pelas empresas devem ser controláveis, rastreáveis e corrigíveis, e devem ser testados repetida e completamente antes de serem lançados.
"Acreditamos que os clientes precisam de modelos de indústria mais específicos do setor, juntamente com os próprios dados da empresa para treinamento ou ajuste fino, a fim de criar serviços inteligentes altamente práticos. O que as empresas precisam é realmente resolver o problema em cenários reais. Resolva um problema determinado problema em vez de resolver 70%-80% do problema em 100 cenas." Disse Tang Daosheng.
Zhu Yong, vice-presidente da Baidu Smart Cloud, também disse: "A partir da situação em casa e no exterior, podemos ver que não há tantos modelos de uso geral. Alguns fabricantes no mercado realmente fazem modelos relativamente pequenos. Pelo contrário , modelos de domínio são especiais importantes, porque o modelo geral só tem a capacidade de conhecimento geral, o modelo de domínio pode ser alinhado com as expectativas de tarefas de setores e domínios específicos e resolver os problemas reais do negócio. Este processo é muito importante, mas o custo e os recursos necessários para esse processo são muito menores do que começar do zero Faça o modelo geral subjacente."
Ao mesmo tempo, ele também julgou que pode haver apenas alguns modelos básicos (modelos gerais subjacentes) no futuro, mas combinados com dados no campo profissional e know-how da indústria, muitos tipos diferentes de modelos de domínio crescerão nele. Esses modelos de domínio serão muito prósperos no futuro e suportarão a camada superior.Aplicativos de domínio prósperos.
Tomando como exemplo o grande modelo da indústria de energia "State Grid-Baidu Wenxin" criado pela Baidu Smart Cloud e State Grid, a Baidu Smart Cloud, juntamente com especialistas da State Grid, introduziu as amostras acumuladas pela State Grid no negócio de energia no dados de modelo geral em grande escala e conhecimento exclusivo e, no treinamento, combinam a experiência de ambas as partes no algoritmo de pré-treinamento e no negócio e no algoritmo no campo de energia, projetam algoritmos como discriminação de entidade no campo de energia e discriminação de documento no campo de energia como tarefas de pré-treinamento, para que o grande modelo Wenxin possa aprender o poder em profundidade Conhecimento profissional, de modo a resolver verdadeiramente problemas práticos de negócios no campo de energia e atingir o objetivo de reduzir custos e aumentar a eficiência.
Zhu Yong disse que a diferença entre o modelo geral e o modelo de domínio pode ser comparada a uma pessoa com uma ampla gama de conhecimentos que foi para a universidade. Ele pode ter algum conhecimento médico, mas não pode diagnosticar pacientes e não é um médico profissional . O modelo de domínio é aprender o conhecimento médico em profundidade com base na forte capacidade geral e tornar-se um médico profissional que pode contribuir com valor na área médica.
De um modelo geral com amplo conhecimento a um modelo médico profissional, o custo dos recursos necessários nesse processo é bem menor do que construir do zero um modelo geral grande, mas enfatiza que existem dados profissionais, deve haver É movido por tarefas no campo profissional para estimulá-lo a produzir tais habilidades.
Como fazer o modelo da indústria
O modelo grande em si é uma coisa nova, que mudou o paradigma anterior de desenvolvimento de software. Os fabricantes precisam de uma nova cadeia de ferramentas e plataforma para ajudar os clientes a aperfeiçoar o modelo grande da indústria mais cedo e mais rápido.
Com o advento da era do modelo grande, a eficiência da última milha será muito melhorada. Zhou Ming mencionou que uma nova geração de paradigma de desenvolvimento de software está tomando forma, principalmente com base no fato de que as empresas fornecem muitos mecanismos funcionais e os usuários agora são assistentes para melhorar a eficiência.Com base nisso, é fácil construir um novo aplicativo.
Tome a plataforma de modelo em grande escala Wenxin Qianfan como exemplo, é uma plataforma única de desenvolvimento de modelo em grande escala e operação de serviço para desenvolvedores corporativos. Ele não apenas fornece o modelo subjacente (ERNIE-Bot) e modelos grandes de código aberto de terceiros, mas também fornece várias ferramentas de desenvolvimento de IA e um ambiente de desenvolvimento completo para facilitar que os clientes usem e desenvolvam facilmente aplicativos de modelo grande.
Para gerenciamento de dados, SFT de modelo automatizado e implantação em nuvem de serviços de raciocínio, os fabricantes esperam realizar serviços de personalização de modelo em grande escala. Os recursos das plataformas de construção de modelos em grande escala de diferentes fabricantes são basicamente semelhantes, e a diferença está na facilidade de uso, na qualidade do efeito e no software e hardware suportados.
"Fazer um modelo grande realmente não é barato, mas há apenas duas razões pelas quais o serviço de modelo grande pode ser promovido no final: a primeira é que o efeito do modelo é melhor e o efeito do modelo não é bom. Desnecessário dizer que o segundo é o custo." Baidu Xin Zhou, gerente geral da Smart Cloud AI e Big Data Platform, disse.
Com efeito, o modelo da indústria deve basear-se no modelo geral. Por exemplo, na educação geral, se não houver um modelo geral melhor, é impossível falar sobre o efeito da aplicação em uma indústria específica. Exemplo disso é o Bloomberg GPT, lançado conjuntamente pela Bloomberg e Johns Hopkins: em sua distribuição de dados, os dados do modelo básico geral representam metade, os dados públicos do setor financeiro representam metade e os próprios dados da Bloomberg representam 0,6%.
"Para que qualquer modelo alcance um melhor nível de inteligência ou capacidades básicas, ele deve treinar o modelo básico com um número relativamente bom de parâmetros e, em seguida, integrar alguns dados profissionais da indústria no modelo básico para fazer um modelo da indústria." Xin disse Zhou.
A ideia da Baidu é lançar um "big guy" (Wenxin Yiyan) e uma plataforma de ferramentas muito completa (Wenxin Qianfan) e, em seguida, fornecer serviços de modelo diferenciados de acordo com as necessidades reais dos clientes para ajudá-los a fazer a escolha mais econômica. acreditam que o preço não se tornará um gargalo para as empresas abraçarem modelos grandes.
Além dos custos de chamada de modelo e custos de treinamento, o Baidu também está ajudando as empresas a reduzir ainda mais os custos. Se as empresas se concentrarem apenas em seus campos relativamente estreitos, o Baidu também possui uma versão com parâmetros relativamente baixos, para garantir o efeito do modelo, usar ou O custo dos modelos de treinamento cairá drasticamente.
Na verdade, não existe um padrão universal para o custo de construção de um grande modelo industrial.
Em primeiro lugar, diferentes grandes modelos básicos têm diferentes especificações de parâmetros, e o investimento em software e hardware deve mudar dinamicamente de acordo com os parâmetros básicos e capacidades do modelo. Se o parâmetro for dezenas de bilhões, um cartão A100 também pode executar e iniciar tarefas de downstream.
Os atuais requisitos de cenários de aplicativos relativamente concentrados se enquadram nessa categoria, como resposta inteligente a perguntas, escrita inteligente e criação inteligente em gerenciamento de conhecimento, bem como cenários de marketing pan-Internet e requisitos de geração de código.
Em segundo lugar, o custo está relacionado à quantidade de dados e à direção da aplicação. O preço atual do modelo global em grande escala é baseado em 1000 tokens como unidade básica. Se as tarefas downstream de uma empresa forem muito simples e puderem ser realizadas com apenas dezenas de milhares de tokens, seu custo será muito baixo e exigirá muito poucas placas de GPU. A quantidade de dados necessária para construir um grande modelo de indústria é geralmente em G ou mesmo T, portanto, seu custo de treinamento off-line será muito alto.
**Quem está participando da corrida? **
Os jogadores correram para a pista de modelos em grande escala. Desta vez, não apenas as empresas de Internet de primeiro nível, mas também mais líderes do setor e empresas iniciantes se juntaram.
Quais indústrias podem assumir a liderança na inovação? Talvez isso possa ser observado no setor em que o caso de cooperação está localizado. Conforme mostrado na tabela no início do artigo, finanças, assistência médica, educação, direção autônoma e outros campos são frequentemente usados.
Por exemplo, quando o Alibaba Cloud lançou o grande modelo Tongyi em abril, anunciou que lançou explorações cooperativas com várias empresas. O primeiro lote de empresas cooperativas inclui OPPO Andes Smart Cloud, Geely Automobile, Zhiji Automobile, Chery New Energy, Momo Zhixing, Swire Coca-Cola, Bosideng, Palm Technology, etc. De acordo com relatórios, o setor financeiro, o setor de varejo e alguns cenários e setores orientados para o consumidor em grande escala acumularam muitos dados públicos e dados de cenários, o que é conveniente para a construção de modelos específicos de empresas ou setores.
De acordo com informações públicas, o número de modelos industriais de grande escala do Baidu Wenxin chegou a 11, abrangendo energia e eletricidade, finanças, aeroespacial, mídia, cinema e televisão, automóveis, gestão urbana, gás, seguros, fabricação de eletrônicos e ciências sociais.
O primeiro lote de dez casos de aplicação de modelo em larga escala na indústria de inteligência artificial em Pequim, lançado em 27 de junho, envolve energia e eletricidade, saúde médica, finanças, direção autônoma, construção, pesquisa científica, vida e campos de perguntas e respostas. É relatado que durante o período de 27 de junho a 30 de julho, a Comissão de Ciência e Tecnologia de Pequim e o Comitê de Gestão de Zhongguancun também se concentrarão em áreas-chave como governança urbana, saúde médica, pesquisa científica, finanças inteligentes, vida inteligente e vida inteligente cidades e assuntos de inovação alvo na cidade. , irá coletar mais de 80 projetos de caso de aplicação de modelo em larga escala da indústria.
Mas mais clientes estão enfrentando uma nova onda de acúmulo de conhecimento e processo de aprendizado.
"Quando nos comunicamos com os clientes, descobrimos que muitos deles não sabem muito sobre os modelos do setor, mas tomarão a iniciativa de solicitar os modelos do setor do Baidu." Li Jingqiu, vice-gerente geral da Baidu Smart Cloud AI Platform, disse que neste momento, será especificamente combinado com o uso real das empresas. Analise as necessidades dos produtos e clientes, como que tipo de recursos você deseja que o modelo da indústria tenha, quais sistemas ou aplicativos usar, quem usará essas aplicações e quais efeitos você espera alcançar... Depois de fazer essas perguntas, você realmente encontrará clientes. O que é necessário é um modelo grande baseado na cadeia de ferramentas SFT de Wenxin Qianfan ou um modelo pré-treinado para a indústria. Este último precisa de pelo menos vários meses, ou até mesmo do ano passado, para ser construído e implantado – desde questões técnicas como processamento de dados, alocação de recursos na camada de poder de computação até treinamento de longo prazo sobre dados comuns no setor.
Da agitação do modelo básico de grande escala ao início do modelo de grande escala da indústria, entrando no segundo semestre de 2023, uma verdadeira transformação dos negócios será acelerada.
Também é interessante comparar os caminhos de fabricantes nacionais como Baidu e OpenAI/Microsoft no campo de modelos de grande escala. Quando o ChatGPT mostrou popularidade em nível de fenômeno global, algumas vozes questionaram por que a China não poderia produzir ChatGPT. Claro, havia é um ambiente técnico No final, muitas pessoas ainda têm um consenso superficial - "A IA da China é mais inclinada a aplicativos de negócios e recursos de comercialização".
Mas, por outro lado, o mercado é a maior força motriz do desenvolvimento tecnológico, e a compreensão do tempo e do ritmo tem gerado resultados diferentes. Tomemos como exemplo o modelo industrial de larga escala. A Microsoft está esperando uma maior maturidade da tecnologia ou sente que ainda não chegou a hora e é um passo tarde demais. modelo em escala para o modelo da indústria em grande escala.Tem vitalidade duradoura.
Perdido no leste, colhido em amora, em termos de resultado, não é ruim que os grandes modelos da indústria nacional andem rápido.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Modelo da indústria, abra o livro!
Fonte: Titanium Media, Autor: Zhang Shuai
"Wenxinyiyan parece ter sido lançado às pressas. Acho que isso não é para ganhar dinheiro, mas para acompanhar o boom do ChatGPT. O grande modelo da indústria é o que realmente pode gerar valor comercial." Wenxinyiyan, um ex-funcionário da Baidu disse à Titanium Media: "Quando o OpenAI não era tão popular no ano passado, o Sr. Wang (Baidu CTO Wang Haifeng) liderou uma equipe para construir 10 modelos em grande escala, incluindo modelos industriais em grande escala. Naquela época , não houve muita atenção fora da indústria, mas se você olhar para o layout do Baidu agora, o grande modelo da indústria é na verdade um layout voltado para o futuro, anterior ao OpenAI e à Microsoft."
Hoje, após a agitação dos modelos de grande escala de uso geral, os modelos da indústria estão gradualmente ganhando força, o que também confirma essa realidade: modelos básicos de grande escala, como o ChatGPT, ganham "choro", que desempenha um papel importante na educação do mercado e moldar a cognição, a inteligência artificial realmente vai ser implementada e ganhar o dinheiro atual, mas também depende do grande modelo da indústria.
Mesmo em mercados estrangeiros, o ChatGPT, como parte dos atributos dos produtos C-end, enfraqueceu gradualmente. De acordo com dados da SimilarWeb, a taxa de crescimento das visitas do ChatGPT no estágio inicial foi surpreendente. A taxa de crescimento mensal foi de 131,6 % em janeiro e 62,5% em fevereiro, 55,8% em março, desacelerando significativamente em abril, com uma taxa de crescimento mensal de 12,6%. espera-se que a taxa de crescimento mensal em junho possa ser negativa.
"Acredito que muitos de nós já experimentamos o ChatGPT, e acredito que muitas pessoas o deixaram de lado depois de experimentá-lo, porque está basicamente separado do nosso trabalho no momento, então o deixamos de lado depois de usá-lo. Mas ainda espero que nem todo mundo vai "acordar cedo e pegar o último episódio", porque esta é uma revolução de paradigma que trará mudanças subversivas." O diretor de tecnologia (CTO) da Microsoft (China) Wei Qing disse anteriormente.
A solução B-side baseada em ChatGPT ou modelos grandes é uma boa maneira de resolver a separação entre modelos grandes e cenas.
Internacionalmente, grandes empresas como Microsoft e Amazon também começaram a buscar caminhos de comercialização de serviços de nível empresarial e começaram a explorar vários setores; domesticamente, Baidu, Alibaba, Tencent e Huawei estão acelerando o investimento na indústria de grande escala modelos. Além disso, muitos líderes da indústria e empresas iniciantes em todo o mundo também estão explorando a perspectiva de modelos de indústria em larga escala. Recentemente, a Comissão Municipal de Ciência e Tecnologia de Pequim e o Comitê de Gestão de Zhongguancun também lançaram o primeiro lote de 10 casos de aplicação de modelos de indústria de inteligência artificial em grande escala em Pequim. Além disso, a quantidade de fusões e aquisições de rotas de tecnologia relacionadas também atingiu novos recordes...
Atualização: Guerra dos Mil Modelos
Se o modelo básico é uma "guerra de cem modelos", o modelo de grande escala da indústria é uma "guerra de mil modelos". . unânime.
"Embora todos tenham grandes expectativas para o modelo de grande escala de uso geral, não é necessariamente a solução ideal para atender às necessidades dos cenários da indústria." Em 19 de junho, na Tencent Cloud Industry Large-scale Model Conference, Senior Executive Vice Presidente do Tencent Group, Cloud e Tang Daosheng, CEO do Smart Industry Business Group, disse.
Caso o Hunyuan Assistant não o tenha divulgado ao público, a Tencent assumiu a liderança no lançamento de modelos industriais de grande escala. Contando com a plataforma Tencent Cloud TI para criar uma seleção de modelos industriais de grande escala, ela oferece aos clientes um interrompe os serviços MaaS e ajuda os clientes corporativos a criar modelos exclusivos de grande escala e aplicativos inteligentes. É aprendido com a Tencent que a Tencent divulgará informações oficiais sobre o modelo geral do C-end no futuro.
Esta série de medidas pode ser entendida como, independentemente do efeito e progresso do modelo básico Hunyuan em larga escala por enquanto, o lançamento prioritário do modelo industrial em larga escala é um movimento necessário para a Tencent garantir sua própria voz e aproveitar os clientes do mercado quando os clientes estão em necessidade urgente.
Anteriormente, Tian Qi, cientista-chefe no campo de inteligência artificial da Huawei Cloud, mencionou que a Huawei divide o modelo grande em três níveis, L0, L1, L2 e L0 é o que todos chamam de modelo geral básico, como GPT-3 , no modelo básico L0 Com base em , mais dados da indústria, o modelo grande da indústria obtido pelo treinamento misto é L1.
Em seguida, L1 é implantado para cenários de subdivisão específicos de milhares de indústrias a jusante, e o modelo de tarefa L2 dos cenários de subdivisão é obtido. A fim de reduzir os custos de produção e melhorar a eficiência o mais rápido possível, como produzir rapidamente modelos L2 a partir dos grandes modelo de indústria L1 e Implantar o modelo L2 no lado do dispositivo, lado da borda e lado da nuvem é uma questão muito importante.
Pode ser visto na agenda da próxima Huawei Developer Conference em julho que a Huawei Cloud conduzirá uma série de interpretações e lançamentos sobre como o modelo Pangu foi refinado de um modelo básico para um modelo da indústria.
No Alibaba Cloud Summit deste ano, o Alibaba Cloud CTO Zhou Jingren também disse: "Hoje nem todas as empresas precisam começar o treinamento do zero, nem todos precisam começar do zero para criar uma variedade de corpus, incluindo um grande número de poder de computação recursos, para crescer do zero. Uma série de personalização do modelo, esperamos que com base no modelo Tongyi Qianwen hoje, combinado com o cenário da empresa, sistema de conhecimento empresarial e necessidades especiais da empresa no setor, cada modelo específico da empresa irá ser gerado."
A Microsoft também está criando seu próprio modelo de indústria. Em abril, na China, a versão internacional do Microsoft Azure OpenAI Service lançou os três primeiros conjuntos de cenários da indústria de inovação global do Azure para comércio eletrônico de varejo, manufatura e campos nativos digitais, integrando GPT-3 e GPT-4 para usuários corporativos locais que vão no exterior. , Codex, DALL-E e ChatGPT de nível empresarial, cinco serviços de modelo em grande escala, para ajudar os clientes empresariais chineses no exterior a acelerar sua expansão no mercado global.
A "guerra dos mil modelos" está prestes a estourar, mas ainda é muito cedo para realmente entrar na fase de grandes ondas lavando a areia. De modo geral, os modelos em grande escala ainda estão em um estágio relativamente inicial de desenvolvimento. Embora modelos de grande escala na indústria estão concentrados, obviamente há mais espaço para esta faixa.
Tomando o grande modelo do setor financeiro como exemplo, ele é dividido em diferentes campos, como empresas de valores mobiliários, seguros, bancos e novas finanças.As tarefas posteriores de cada campo são divididas em dezenas ou centenas de subtarefas.
"O momento mais importante é quando, com base no modelo básico, o SFT e outros mecanismos e estruturas podem ser adaptados com eficiência às tarefas a jusante e quando as tarefas a jusante do setor financeiro ou de outros modelos do setor têm um efeito de escala". Chen Haiqing, chefe do Moyuan Innovation Business Center, é apenas o começo dos grandes modelos e cenários do setor para treinamento contínuo por meio de alguns dados universais não estruturados.
Escolha sensata e realista
Se uma empresa deseja criar um modelo básico de larga escala com centenas de bilhões de parâmetros, ela precisa de um poder de computação de mais de 10.000 placas em um cluster de máquina única, não apenas uma placa de GPU, mas também a utilização de recursos de cluster de GPU , o que a maioria das empresas não pode fazer.
O modelo de grande indústria é obviamente mais fácil de realizar e também tem uma perspectiva de aplicação mais ampla.
"Grandes modelos podem capacitar milhares de setores, mas você deve ter um bom entendimento dos cenários de milhares de setores e não pode esperar treinar centenas de bilhões ou trilhões de modelos grandes, que podem ser facilmente usados por usuários corporativos, " disse Zhou Ming, fundador da Lanzhou Technology. "Do modelo geral ao modelo da indústria, é preciso fazer a última milha para o cenário do usuário."
Depois de avaliar o investimento necessário para o modelo básico de grande escala e pesar os prós e contras e os ganhos e perdas, os clientes corporativos rapidamente se voltaram para o modelo industrial de grande escala, e os fabricantes dedicaram mais energia a ele.
Tang Daosheng disse francamente que os atuais modelos de grande escala de propósito geral são geralmente treinados com base em extensa literatura pública e informações de rede. As informações na Internet podem conter erros, rumores e preconceitos. Muitos conhecimentos profissionais e dados da indústria são insuficientemente acumulados, resultando em precisão e precisão específicas do setor do modelo não são suficientes e o "ruído" dos dados é muito grande.
No entanto, em muitos cenários industriais, os usuários têm altos requisitos de serviços profissionais fornecidos pelas empresas e sua tolerância a falhas é baixa. Uma vez que uma empresa fornece informações erradas, pode causar uma enorme responsabilidade legal ou crise de relações públicas. Portanto, os modelos de grande escala usados pelas empresas devem ser controláveis, rastreáveis e corrigíveis, e devem ser testados repetida e completamente antes de serem lançados.
"Acreditamos que os clientes precisam de modelos de indústria mais específicos do setor, juntamente com os próprios dados da empresa para treinamento ou ajuste fino, a fim de criar serviços inteligentes altamente práticos. O que as empresas precisam é realmente resolver o problema em cenários reais. Resolva um problema determinado problema em vez de resolver 70%-80% do problema em 100 cenas." Disse Tang Daosheng.
Zhu Yong, vice-presidente da Baidu Smart Cloud, também disse: "A partir da situação em casa e no exterior, podemos ver que não há tantos modelos de uso geral. Alguns fabricantes no mercado realmente fazem modelos relativamente pequenos. Pelo contrário , modelos de domínio são especiais importantes, porque o modelo geral só tem a capacidade de conhecimento geral, o modelo de domínio pode ser alinhado com as expectativas de tarefas de setores e domínios específicos e resolver os problemas reais do negócio. Este processo é muito importante, mas o custo e os recursos necessários para esse processo são muito menores do que começar do zero Faça o modelo geral subjacente."
Ao mesmo tempo, ele também julgou que pode haver apenas alguns modelos básicos (modelos gerais subjacentes) no futuro, mas combinados com dados no campo profissional e know-how da indústria, muitos tipos diferentes de modelos de domínio crescerão nele. Esses modelos de domínio serão muito prósperos no futuro e suportarão a camada superior.Aplicativos de domínio prósperos.
Tomando como exemplo o grande modelo da indústria de energia "State Grid-Baidu Wenxin" criado pela Baidu Smart Cloud e State Grid, a Baidu Smart Cloud, juntamente com especialistas da State Grid, introduziu as amostras acumuladas pela State Grid no negócio de energia no dados de modelo geral em grande escala e conhecimento exclusivo e, no treinamento, combinam a experiência de ambas as partes no algoritmo de pré-treinamento e no negócio e no algoritmo no campo de energia, projetam algoritmos como discriminação de entidade no campo de energia e discriminação de documento no campo de energia como tarefas de pré-treinamento, para que o grande modelo Wenxin possa aprender o poder em profundidade Conhecimento profissional, de modo a resolver verdadeiramente problemas práticos de negócios no campo de energia e atingir o objetivo de reduzir custos e aumentar a eficiência.
Zhu Yong disse que a diferença entre o modelo geral e o modelo de domínio pode ser comparada a uma pessoa com uma ampla gama de conhecimentos que foi para a universidade. Ele pode ter algum conhecimento médico, mas não pode diagnosticar pacientes e não é um médico profissional . O modelo de domínio é aprender o conhecimento médico em profundidade com base na forte capacidade geral e tornar-se um médico profissional que pode contribuir com valor na área médica.
De um modelo geral com amplo conhecimento a um modelo médico profissional, o custo dos recursos necessários nesse processo é bem menor do que construir do zero um modelo geral grande, mas enfatiza que existem dados profissionais, deve haver É movido por tarefas no campo profissional para estimulá-lo a produzir tais habilidades.
Como fazer o modelo da indústria
O modelo grande em si é uma coisa nova, que mudou o paradigma anterior de desenvolvimento de software. Os fabricantes precisam de uma nova cadeia de ferramentas e plataforma para ajudar os clientes a aperfeiçoar o modelo grande da indústria mais cedo e mais rápido.
Com o advento da era do modelo grande, a eficiência da última milha será muito melhorada. Zhou Ming mencionou que uma nova geração de paradigma de desenvolvimento de software está tomando forma, principalmente com base no fato de que as empresas fornecem muitos mecanismos funcionais e os usuários agora são assistentes para melhorar a eficiência.Com base nisso, é fácil construir um novo aplicativo.
Tome a plataforma de modelo em grande escala Wenxin Qianfan como exemplo, é uma plataforma única de desenvolvimento de modelo em grande escala e operação de serviço para desenvolvedores corporativos. Ele não apenas fornece o modelo subjacente (ERNIE-Bot) e modelos grandes de código aberto de terceiros, mas também fornece várias ferramentas de desenvolvimento de IA e um ambiente de desenvolvimento completo para facilitar que os clientes usem e desenvolvam facilmente aplicativos de modelo grande.
Para gerenciamento de dados, SFT de modelo automatizado e implantação em nuvem de serviços de raciocínio, os fabricantes esperam realizar serviços de personalização de modelo em grande escala. Os recursos das plataformas de construção de modelos em grande escala de diferentes fabricantes são basicamente semelhantes, e a diferença está na facilidade de uso, na qualidade do efeito e no software e hardware suportados.
"Fazer um modelo grande realmente não é barato, mas há apenas duas razões pelas quais o serviço de modelo grande pode ser promovido no final: a primeira é que o efeito do modelo é melhor e o efeito do modelo não é bom. Desnecessário dizer que o segundo é o custo." Baidu Xin Zhou, gerente geral da Smart Cloud AI e Big Data Platform, disse.
Com efeito, o modelo da indústria deve basear-se no modelo geral. Por exemplo, na educação geral, se não houver um modelo geral melhor, é impossível falar sobre o efeito da aplicação em uma indústria específica. Exemplo disso é o Bloomberg GPT, lançado conjuntamente pela Bloomberg e Johns Hopkins: em sua distribuição de dados, os dados do modelo básico geral representam metade, os dados públicos do setor financeiro representam metade e os próprios dados da Bloomberg representam 0,6%.
"Para que qualquer modelo alcance um melhor nível de inteligência ou capacidades básicas, ele deve treinar o modelo básico com um número relativamente bom de parâmetros e, em seguida, integrar alguns dados profissionais da indústria no modelo básico para fazer um modelo da indústria." Xin disse Zhou.
A ideia da Baidu é lançar um "big guy" (Wenxin Yiyan) e uma plataforma de ferramentas muito completa (Wenxin Qianfan) e, em seguida, fornecer serviços de modelo diferenciados de acordo com as necessidades reais dos clientes para ajudá-los a fazer a escolha mais econômica. acreditam que o preço não se tornará um gargalo para as empresas abraçarem modelos grandes.
Além dos custos de chamada de modelo e custos de treinamento, o Baidu também está ajudando as empresas a reduzir ainda mais os custos. Se as empresas se concentrarem apenas em seus campos relativamente estreitos, o Baidu também possui uma versão com parâmetros relativamente baixos, para garantir o efeito do modelo, usar ou O custo dos modelos de treinamento cairá drasticamente.
Na verdade, não existe um padrão universal para o custo de construção de um grande modelo industrial.
Em primeiro lugar, diferentes grandes modelos básicos têm diferentes especificações de parâmetros, e o investimento em software e hardware deve mudar dinamicamente de acordo com os parâmetros básicos e capacidades do modelo. Se o parâmetro for dezenas de bilhões, um cartão A100 também pode executar e iniciar tarefas de downstream.
Os atuais requisitos de cenários de aplicativos relativamente concentrados se enquadram nessa categoria, como resposta inteligente a perguntas, escrita inteligente e criação inteligente em gerenciamento de conhecimento, bem como cenários de marketing pan-Internet e requisitos de geração de código.
Em segundo lugar, o custo está relacionado à quantidade de dados e à direção da aplicação. O preço atual do modelo global em grande escala é baseado em 1000 tokens como unidade básica. Se as tarefas downstream de uma empresa forem muito simples e puderem ser realizadas com apenas dezenas de milhares de tokens, seu custo será muito baixo e exigirá muito poucas placas de GPU. A quantidade de dados necessária para construir um grande modelo de indústria é geralmente em G ou mesmo T, portanto, seu custo de treinamento off-line será muito alto.
**Quem está participando da corrida? **
Os jogadores correram para a pista de modelos em grande escala. Desta vez, não apenas as empresas de Internet de primeiro nível, mas também mais líderes do setor e empresas iniciantes se juntaram.
Quais indústrias podem assumir a liderança na inovação? Talvez isso possa ser observado no setor em que o caso de cooperação está localizado. Conforme mostrado na tabela no início do artigo, finanças, assistência médica, educação, direção autônoma e outros campos são frequentemente usados.
Por exemplo, quando o Alibaba Cloud lançou o grande modelo Tongyi em abril, anunciou que lançou explorações cooperativas com várias empresas. O primeiro lote de empresas cooperativas inclui OPPO Andes Smart Cloud, Geely Automobile, Zhiji Automobile, Chery New Energy, Momo Zhixing, Swire Coca-Cola, Bosideng, Palm Technology, etc. De acordo com relatórios, o setor financeiro, o setor de varejo e alguns cenários e setores orientados para o consumidor em grande escala acumularam muitos dados públicos e dados de cenários, o que é conveniente para a construção de modelos específicos de empresas ou setores.
De acordo com informações públicas, o número de modelos industriais de grande escala do Baidu Wenxin chegou a 11, abrangendo energia e eletricidade, finanças, aeroespacial, mídia, cinema e televisão, automóveis, gestão urbana, gás, seguros, fabricação de eletrônicos e ciências sociais.
O primeiro lote de dez casos de aplicação de modelo em larga escala na indústria de inteligência artificial em Pequim, lançado em 27 de junho, envolve energia e eletricidade, saúde médica, finanças, direção autônoma, construção, pesquisa científica, vida e campos de perguntas e respostas. É relatado que durante o período de 27 de junho a 30 de julho, a Comissão de Ciência e Tecnologia de Pequim e o Comitê de Gestão de Zhongguancun também se concentrarão em áreas-chave como governança urbana, saúde médica, pesquisa científica, finanças inteligentes, vida inteligente e vida inteligente cidades e assuntos de inovação alvo na cidade. , irá coletar mais de 80 projetos de caso de aplicação de modelo em larga escala da indústria.
"Quando nos comunicamos com os clientes, descobrimos que muitos deles não sabem muito sobre os modelos do setor, mas tomarão a iniciativa de solicitar os modelos do setor do Baidu." Li Jingqiu, vice-gerente geral da Baidu Smart Cloud AI Platform, disse que neste momento, será especificamente combinado com o uso real das empresas. Analise as necessidades dos produtos e clientes, como que tipo de recursos você deseja que o modelo da indústria tenha, quais sistemas ou aplicativos usar, quem usará essas aplicações e quais efeitos você espera alcançar... Depois de fazer essas perguntas, você realmente encontrará clientes. O que é necessário é um modelo grande baseado na cadeia de ferramentas SFT de Wenxin Qianfan ou um modelo pré-treinado para a indústria. Este último precisa de pelo menos vários meses, ou até mesmo do ano passado, para ser construído e implantado – desde questões técnicas como processamento de dados, alocação de recursos na camada de poder de computação até treinamento de longo prazo sobre dados comuns no setor.
Da agitação do modelo básico de grande escala ao início do modelo de grande escala da indústria, entrando no segundo semestre de 2023, uma verdadeira transformação dos negócios será acelerada.
Também é interessante comparar os caminhos de fabricantes nacionais como Baidu e OpenAI/Microsoft no campo de modelos de grande escala. Quando o ChatGPT mostrou popularidade em nível de fenômeno global, algumas vozes questionaram por que a China não poderia produzir ChatGPT. Claro, havia é um ambiente técnico No final, muitas pessoas ainda têm um consenso superficial - "A IA da China é mais inclinada a aplicativos de negócios e recursos de comercialização".
Mas, por outro lado, o mercado é a maior força motriz do desenvolvimento tecnológico, e a compreensão do tempo e do ritmo tem gerado resultados diferentes. Tomemos como exemplo o modelo industrial de larga escala. A Microsoft está esperando uma maior maturidade da tecnologia ou sente que ainda não chegou a hora e é um passo tarde demais. modelo em escala para o modelo da indústria em grande escala.Tem vitalidade duradoura.
Perdido no leste, colhido em amora, em termos de resultado, não é ruim que os grandes modelos da indústria nacional andem rápido.