La danse des démons dans le domaine de l'IA : des Transformers à la bataille des centaines de modèles
Le mois dernier, une intense "guerre des animaux" a éclaté dans le secteur de l'IA. D'un côté, il y a le modèle de l'alpaga lancé par un géant de la technologie, très apprécié des développeurs en raison de sa nature open source. De l'autre côté se trouve un grand modèle nommé "Faucon", qui a dominé le classement des LLM open source après sa sortie en mai, surpassant l'alpaga.
Fait intéressant, les développeurs de "Falcon" ne sont pas une entreprise technologique, mais un institut de recherche situé aux Émirats Arabes Unis. Le ministre de l'Intelligence Artificielle des Émirats a ensuite été sélectionné parmi les "100 personnes les plus influentes dans le domaine de l'IA" par le magazine Time.
Aujourd'hui, le domaine de l'IA est entré dans une phase de "danse des démons". Tant que les pays et les entreprises disposent de suffisamment de moyens financiers, ils s'emploient à créer leur propre modèle de langage de grande taille. Rien qu'au sein des pays du Golfe, il n'y a pas qu'un seul acteur dans cette course.
Un investisseur a déclaré : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, pensant qu'il n'y avait pas de barrières. Je ne m'attendais pas à ce que l'entrepreneuriat en technologie dure soit encore une bataille de centaines de modèles..."
Comment une technologie dure, initialement considérée comme difficile, est-elle devenue une situation où chaque pays a son propre modèle et où elle fleurit partout ?
Transformer a changé les règles du jeu
La capacité des pays et des entreprises à réaliser leurs rêves de grands modèles est due à l'article célèbre publié en 2017 intitulé « Attention Is All You Need ». Cet article a révélé l'algorithme Transformer, qui est devenu le point de départ de cette vague actuelle d'IA. Aujourd'hui, les grands modèles, quelle que soit leur nationalité, sont construits sur la base du Transformer.
Avant cela, "enseigner aux machines à lire" était un problème académique reconnu. Lorsqu'ils lisent, les humains ne se concentrent pas seulement sur les mots et phrases actuels, mais comprennent aussi en tenant compte du contexte. Les premiers réseaux neuronaux avaient du mal à faire cela, jusqu'à l'apparition des réseaux de neurones récurrents (RNN) en 2014 qui ont permis des avancées.
Cependant, les RNN souffrent d'un problème d'efficacité et ont du mal à traiter un grand nombre de paramètres. L'apparition des Transformers a résolu ce problème en remplaçant la conception cyclique des RNN par un codage de position, permettant ainsi le calcul parallèle et améliorant considérablement l'efficacité de l'entraînement. Ce changement a propulsé l'IA dans l'ère des grands modèles.
Transformer est rapidement devenu la solution dominante dans le domaine du traitement du langage naturel. Il a transformé les grands modèles d'un problème de recherche théorique en un problème d'ingénierie pur - tant qu'il y a suffisamment de puissance de calcul et de données, toute entreprise ayant des compétences techniques peut créer un grand modèle.
Comme l'a dit un certain scientifique en informatique, l'IA devient une technologie universelle, semblable à l'électricité et à Internet. Bien que certains grands modèles d'entreprises soient encore en tête, les analystes s'attendent à ce que d'autres géants de la technologie puissent rapidement créer des produits de niveau comparable.
Réflexions derrière la bataille des cent modèles
En juillet de cette année, le nombre de grands modèles en Chine a atteint 130, dépassant celui des États-Unis. En dehors de la Chine et des États-Unis, certains pays relativement riches ont également lancé leurs propres grands modèles, comme le Japon, les Émirats Arabes Unis, l'Inde et la Corée du Sud.
Cette situation rappelle l'ère de la bulle Internet. Mais entrer sur le marché facilement ne signifie pas que tout le monde peut devenir un géant de l'ère de l'IA. Prenons l'exemple des grands modèles open source, la communauté de développeurs active est leur véritable avantage concurrentiel. Un géant des réseaux sociaux comprend bien cela, sa série de grands modèles open source est devenue un indicateur dans ce domaine.
Cependant, la plupart des grands modèles affichent encore un écart de performance évident par rapport aux produits de premier plan. Les derniers résultats des tests d'AgentBench montrent que le score du deuxième est à peine deux tiers de celui du premier. Cet écart provient des excellentes équipes de scientifiques et de l'expérience accumulée au fil du temps par les entreprises de premier plan.
La capacité fondamentale des grands modèles ne réside pas seulement dans le nombre de paramètres, mais dans la construction d'un écosystème ( pour les modèles open source ) ou la capacité de raisonnement pure ( pour les modèles fermés ). Avec le développement de la communauté open source, les performances des différents grands modèles peuvent converger.
Le plus grand défi réside dans la commercialisation. À part quelques exceptions, la plupart des entreprises d'IA n'ont toujours pas trouvé de modèle de rentabilité après avoir investi des coûts énormes. Même les entreprises leaders du secteur rencontrent des difficultés en matière de tarification des produits d'IA.
Le coût élevé de la puissance de calcul est devenu un frein au développement de l'industrie. Selon les estimations, les dépenses annuelles des entreprises technologiques mondiales pour l'infrastructure des grands modèles pourraient largement dépasser les revenus qu'elles génèrent, créant ainsi un écart considérable.
Bien que les produits révolutionnaires de certaines entreprises aient déclenché cette révolution de l'IA, la valeur que l'on peut créer simplement en s'appuyant sur l'entraînement de grands modèles reste sujette à caution. Avec l'intensification de la concurrence et l'augmentation des modèles open source, les fournisseurs de grands modèles purs pourraient faire face à une pression accrue.
Le succès de l'iPhone 4 ne réside pas seulement dans son processeur, mais aussi dans sa capacité à exécuter diverses applications. La véritable valeur de l'IA pourrait également se manifester dans des applications concrètes.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
22 J'aime
Récompense
22
5
Partager
Commentaire
0/400
SignatureCollector
· 08-03 13:36
Danse des démons ? Mieux vaut appeler ça une course de modèles.
Voir l'originalRépondre0
GateUser-2fce706c
· 08-01 18:24
Le mot de passe de la richesse est juste devant nous, ceux qui ne peuvent pas l'attraper sont des pigeons.
Voir l'originalRépondre0
CoffeeOnChain
· 08-01 18:24
Ah, cela redevient un jeu de capital.
Voir l'originalRépondre0
MEV_Whisperer
· 08-01 18:16
Faire de l'IA, c'est moins amusant que le Trading des cryptomonnaies.
Voir l'originalRépondre0
NFT_Therapy
· 08-01 18:13
Quel bon gars, avoir beaucoup d'argent c'est vraiment amusant.
Les grands modèles d'IA fleurissent, leur développement est facile mais leur commercialisation est difficile.
La danse des démons dans le domaine de l'IA : des Transformers à la bataille des centaines de modèles
Le mois dernier, une intense "guerre des animaux" a éclaté dans le secteur de l'IA. D'un côté, il y a le modèle de l'alpaga lancé par un géant de la technologie, très apprécié des développeurs en raison de sa nature open source. De l'autre côté se trouve un grand modèle nommé "Faucon", qui a dominé le classement des LLM open source après sa sortie en mai, surpassant l'alpaga.
Fait intéressant, les développeurs de "Falcon" ne sont pas une entreprise technologique, mais un institut de recherche situé aux Émirats Arabes Unis. Le ministre de l'Intelligence Artificielle des Émirats a ensuite été sélectionné parmi les "100 personnes les plus influentes dans le domaine de l'IA" par le magazine Time.
Aujourd'hui, le domaine de l'IA est entré dans une phase de "danse des démons". Tant que les pays et les entreprises disposent de suffisamment de moyens financiers, ils s'emploient à créer leur propre modèle de langage de grande taille. Rien qu'au sein des pays du Golfe, il n'y a pas qu'un seul acteur dans cette course.
Un investisseur a déclaré : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, pensant qu'il n'y avait pas de barrières. Je ne m'attendais pas à ce que l'entrepreneuriat en technologie dure soit encore une bataille de centaines de modèles..."
Comment une technologie dure, initialement considérée comme difficile, est-elle devenue une situation où chaque pays a son propre modèle et où elle fleurit partout ?
Transformer a changé les règles du jeu
La capacité des pays et des entreprises à réaliser leurs rêves de grands modèles est due à l'article célèbre publié en 2017 intitulé « Attention Is All You Need ». Cet article a révélé l'algorithme Transformer, qui est devenu le point de départ de cette vague actuelle d'IA. Aujourd'hui, les grands modèles, quelle que soit leur nationalité, sont construits sur la base du Transformer.
Avant cela, "enseigner aux machines à lire" était un problème académique reconnu. Lorsqu'ils lisent, les humains ne se concentrent pas seulement sur les mots et phrases actuels, mais comprennent aussi en tenant compte du contexte. Les premiers réseaux neuronaux avaient du mal à faire cela, jusqu'à l'apparition des réseaux de neurones récurrents (RNN) en 2014 qui ont permis des avancées.
Cependant, les RNN souffrent d'un problème d'efficacité et ont du mal à traiter un grand nombre de paramètres. L'apparition des Transformers a résolu ce problème en remplaçant la conception cyclique des RNN par un codage de position, permettant ainsi le calcul parallèle et améliorant considérablement l'efficacité de l'entraînement. Ce changement a propulsé l'IA dans l'ère des grands modèles.
Transformer est rapidement devenu la solution dominante dans le domaine du traitement du langage naturel. Il a transformé les grands modèles d'un problème de recherche théorique en un problème d'ingénierie pur - tant qu'il y a suffisamment de puissance de calcul et de données, toute entreprise ayant des compétences techniques peut créer un grand modèle.
Comme l'a dit un certain scientifique en informatique, l'IA devient une technologie universelle, semblable à l'électricité et à Internet. Bien que certains grands modèles d'entreprises soient encore en tête, les analystes s'attendent à ce que d'autres géants de la technologie puissent rapidement créer des produits de niveau comparable.
Réflexions derrière la bataille des cent modèles
En juillet de cette année, le nombre de grands modèles en Chine a atteint 130, dépassant celui des États-Unis. En dehors de la Chine et des États-Unis, certains pays relativement riches ont également lancé leurs propres grands modèles, comme le Japon, les Émirats Arabes Unis, l'Inde et la Corée du Sud.
Cette situation rappelle l'ère de la bulle Internet. Mais entrer sur le marché facilement ne signifie pas que tout le monde peut devenir un géant de l'ère de l'IA. Prenons l'exemple des grands modèles open source, la communauté de développeurs active est leur véritable avantage concurrentiel. Un géant des réseaux sociaux comprend bien cela, sa série de grands modèles open source est devenue un indicateur dans ce domaine.
Cependant, la plupart des grands modèles affichent encore un écart de performance évident par rapport aux produits de premier plan. Les derniers résultats des tests d'AgentBench montrent que le score du deuxième est à peine deux tiers de celui du premier. Cet écart provient des excellentes équipes de scientifiques et de l'expérience accumulée au fil du temps par les entreprises de premier plan.
La capacité fondamentale des grands modèles ne réside pas seulement dans le nombre de paramètres, mais dans la construction d'un écosystème ( pour les modèles open source ) ou la capacité de raisonnement pure ( pour les modèles fermés ). Avec le développement de la communauté open source, les performances des différents grands modèles peuvent converger.
Le plus grand défi réside dans la commercialisation. À part quelques exceptions, la plupart des entreprises d'IA n'ont toujours pas trouvé de modèle de rentabilité après avoir investi des coûts énormes. Même les entreprises leaders du secteur rencontrent des difficultés en matière de tarification des produits d'IA.
Le coût élevé de la puissance de calcul est devenu un frein au développement de l'industrie. Selon les estimations, les dépenses annuelles des entreprises technologiques mondiales pour l'infrastructure des grands modèles pourraient largement dépasser les revenus qu'elles génèrent, créant ainsi un écart considérable.
Bien que les produits révolutionnaires de certaines entreprises aient déclenché cette révolution de l'IA, la valeur que l'on peut créer simplement en s'appuyant sur l'entraînement de grands modèles reste sujette à caution. Avec l'intensification de la concurrence et l'augmentation des modèles open source, les fournisseurs de grands modèles purs pourraient faire face à une pression accrue.
Le succès de l'iPhone 4 ne réside pas seulement dans son processeur, mais aussi dans sa capacité à exécuter diverses applications. La véritable valeur de l'IA pourrait également se manifester dans des applications concrètes.