Хаос в области ИИ: от трансформеров до битвы ста моделей
В прошлом месяце в ИТ-индустрии произошла бурная "война животных". С одной стороны, был представлен модель ламы от одного из технологических гигантов, которая благодаря своей открытой природе пользовалась большой популярностью среди разработчиков. С другой стороны, была модель "Сокол", которая после своего появления в мае обошла ламу и заняла первое место в рейтинге открытых LLM.
Интересно, что разработчиком "Сокол" является не технологическая компания, а исследовательский институт, расположенный в Объединенных Арабских Эмиратах. Министр искусственного интеллекта ОАЭ впоследствии был включен в список "100 самых влиятельных людей в области ИИ", составленный журналом Time.
Сегодня область ИИ вошла в стадию "беспорядка с демонами". Любая страна и компания с достаточными финансовыми ресурсами создает свою собственную большую языковую модель. В только странах Персидского залива есть не один игрок в этой гонке.
Инвесторы жалуются: "Когда-то я недооценивал инновации бизнес-моделей в интернете и считал, что у них нет барьеров. Не ожидал, что стартапы в области жестких технологий и больших моделей все равно ведут к битве ста моделей..."
Как это произошло, что изначально считавшиеся высокими технологиями стали одинаковыми в каждой стране и распространились повсюду?
Трансформер изменил правила игры
Текущие страны и компании, стремящиеся к большим моделям, обязаны знаменитой статье "Attention Is All You Need", опубликованной в 2017 году. Эта статья представила алгоритм Transformer, ставший катализатором текущей волны ИИ. Современные большие модели, независимо от их национальности, создаются на основе Transformer.
До этого момента "обучение машин читать" оставалось общепризнанной академической проблемой. При чтении человек обращает внимание не только на текущие слова и фразы, но и использует контекст для понимания. Ранние нейронные сети не могли этого сделать, пока в 2014 году не появился прорыв в виде рекуррентных нейронных сетей (RNN).
Однако у RNN есть проблема низкой эффективности, и им трудно обрабатывать большое количество параметров. Появление Transformer решило эту задачу, заменив циклическую архитектуру RNN на позиционное кодирование, что позволило реализовать параллельные вычисления и значительно повысить эффективность обучения. Это изменение вывело ИИ в эпоху больших моделей.
Transformer быстро стал основным решением в области обработки естественного языка. Он превратил большие модели из теоретических исследований в чисто инженерную задачу - при наличии достаточно вычислительной мощности и данных любая технически компетентная компания может создать большую модель.
Как сказал один из ученых-компьютерщиков, ИИ становится универсальной технологией, подобной электричеству и интернету. Хотя некоторые крупные модели компаний все еще опережают остальных, аналитики ожидают, что другие технологические гиганты вскоре смогут создать продукты аналогичного уровня.
Мысли о битве ста моделей
По состоянию на июль этого года в стране количество крупных моделей достигло 130, что превышает количество в США. Кроме Китая и США, некоторые более богатые страны также представили свои крупные модели, такие как Япония, Объединенные Арабские Эмираты, Индия, Южная Корея и другие.
Эта ситуация напоминает эпоху интернет-пузыря. Но легкий вход не означает, что каждый может стать гигантом в эпоху ИИ. Взять, к примеру, открытые большие модели; активное сообщество разработчиков является их ключевым конкурентным преимуществом. Один из гигантов социальных медиа прекрасно это понимает, и его серия открытых больших моделей уже стала вехой в этой области.
Однако большинство крупных моделей по-прежнему имеют явное отставание от продуктов высшего уровня. Последние результаты тестирования AgentBench показывают, что балл второго места составляет менее двух третей от балла первого места. Это отставание объясняется тем, что у ведущих компаний есть отличные команды ученых и долгосрочный опыт накопления.
Ядро больших моделей заключается не только в количестве параметров, но и в строительстве экосистемы ( для открытых моделей ) или чисто выводных возможностей ( для закрытых моделей ). С развитием открытого сообщества производительность различных больших моделей может стать схожей.
Более серьезная проблема заключается в коммерциализации. За исключением нескольких исключений, большинство AI-компаний после значительных затрат все еще не нашли модели получения прибыли. Даже ведущие компании отрасли сталкиваются с трудностями в установлении цен на AI-продукты.
Высокие затраты на вычислительную мощность стали препятствием для развития отрасли. По оценкам, годовые расходы мировых технологических компаний на инфраструктуру больших моделей могут значительно превышать их доходы, существует огромный разрыв.
Несмотря на то, что прорывные продукты некоторых компаний вызвали эту революцию в ИИ, все еще остаются сомнения в ценности, которую можно создать, полагаясь исключительно на обучение больших моделей. С увеличением конкуренции и ростом числа открытых моделей чистые поставщики больших моделей могут столкнуться с еще большим давлением.
Успех iPhone 4 заключается не только в его процессоре, но и в том, что он может запускать различные приложения. Настоящая ценность в области ИИ, возможно, также будет проявляться в конкретных приложениях.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
22 Лайков
Награда
22
5
Поделиться
комментарий
0/400
SignatureCollector
· 08-03 13:36
Вместо "Танец дьяволов" лучше сказать "Соревнование ста моделей"
Посмотреть ОригиналОтветить0
GateUser-2fce706c
· 08-01 18:24
Секрет богатства прямо перед вами, а те, кого вы не можете поймать, это неудачники.
Посмотреть ОригиналОтветить0
CoffeeOnChain
· 08-01 18:24
Ах, снова это капиталистическая игра.
Посмотреть ОригиналОтветить0
MEV_Whisperer
· 08-01 18:16
Заниматься ИИ не так увлекательно, как Торговля криптовалютой.
Большое количество AI-моделей, трудно коммерциализировать, хотя легко разрабатывать.
Хаос в области ИИ: от трансформеров до битвы ста моделей
В прошлом месяце в ИТ-индустрии произошла бурная "война животных". С одной стороны, был представлен модель ламы от одного из технологических гигантов, которая благодаря своей открытой природе пользовалась большой популярностью среди разработчиков. С другой стороны, была модель "Сокол", которая после своего появления в мае обошла ламу и заняла первое место в рейтинге открытых LLM.
Интересно, что разработчиком "Сокол" является не технологическая компания, а исследовательский институт, расположенный в Объединенных Арабских Эмиратах. Министр искусственного интеллекта ОАЭ впоследствии был включен в список "100 самых влиятельных людей в области ИИ", составленный журналом Time.
Сегодня область ИИ вошла в стадию "беспорядка с демонами". Любая страна и компания с достаточными финансовыми ресурсами создает свою собственную большую языковую модель. В только странах Персидского залива есть не один игрок в этой гонке.
Инвесторы жалуются: "Когда-то я недооценивал инновации бизнес-моделей в интернете и считал, что у них нет барьеров. Не ожидал, что стартапы в области жестких технологий и больших моделей все равно ведут к битве ста моделей..."
Как это произошло, что изначально считавшиеся высокими технологиями стали одинаковыми в каждой стране и распространились повсюду?
Трансформер изменил правила игры
Текущие страны и компании, стремящиеся к большим моделям, обязаны знаменитой статье "Attention Is All You Need", опубликованной в 2017 году. Эта статья представила алгоритм Transformer, ставший катализатором текущей волны ИИ. Современные большие модели, независимо от их национальности, создаются на основе Transformer.
До этого момента "обучение машин читать" оставалось общепризнанной академической проблемой. При чтении человек обращает внимание не только на текущие слова и фразы, но и использует контекст для понимания. Ранние нейронные сети не могли этого сделать, пока в 2014 году не появился прорыв в виде рекуррентных нейронных сетей (RNN).
Однако у RNN есть проблема низкой эффективности, и им трудно обрабатывать большое количество параметров. Появление Transformer решило эту задачу, заменив циклическую архитектуру RNN на позиционное кодирование, что позволило реализовать параллельные вычисления и значительно повысить эффективность обучения. Это изменение вывело ИИ в эпоху больших моделей.
Transformer быстро стал основным решением в области обработки естественного языка. Он превратил большие модели из теоретических исследований в чисто инженерную задачу - при наличии достаточно вычислительной мощности и данных любая технически компетентная компания может создать большую модель.
Как сказал один из ученых-компьютерщиков, ИИ становится универсальной технологией, подобной электричеству и интернету. Хотя некоторые крупные модели компаний все еще опережают остальных, аналитики ожидают, что другие технологические гиганты вскоре смогут создать продукты аналогичного уровня.
Мысли о битве ста моделей
По состоянию на июль этого года в стране количество крупных моделей достигло 130, что превышает количество в США. Кроме Китая и США, некоторые более богатые страны также представили свои крупные модели, такие как Япония, Объединенные Арабские Эмираты, Индия, Южная Корея и другие.
Эта ситуация напоминает эпоху интернет-пузыря. Но легкий вход не означает, что каждый может стать гигантом в эпоху ИИ. Взять, к примеру, открытые большие модели; активное сообщество разработчиков является их ключевым конкурентным преимуществом. Один из гигантов социальных медиа прекрасно это понимает, и его серия открытых больших моделей уже стала вехой в этой области.
Однако большинство крупных моделей по-прежнему имеют явное отставание от продуктов высшего уровня. Последние результаты тестирования AgentBench показывают, что балл второго места составляет менее двух третей от балла первого места. Это отставание объясняется тем, что у ведущих компаний есть отличные команды ученых и долгосрочный опыт накопления.
Ядро больших моделей заключается не только в количестве параметров, но и в строительстве экосистемы ( для открытых моделей ) или чисто выводных возможностей ( для закрытых моделей ). С развитием открытого сообщества производительность различных больших моделей может стать схожей.
Более серьезная проблема заключается в коммерциализации. За исключением нескольких исключений, большинство AI-компаний после значительных затрат все еще не нашли модели получения прибыли. Даже ведущие компании отрасли сталкиваются с трудностями в установлении цен на AI-продукты.
Высокие затраты на вычислительную мощность стали препятствием для развития отрасли. По оценкам, годовые расходы мировых технологических компаний на инфраструктуру больших моделей могут значительно превышать их доходы, существует огромный разрыв.
Несмотря на то, что прорывные продукты некоторых компаний вызвали эту революцию в ИИ, все еще остаются сомнения в ценности, которую можно создать, полагаясь исключительно на обучение больших моделей. С увеличением конкуренции и ростом числа открытых моделей чистые поставщики больших моделей могут столкнуться с еще большим давлением.
Успех iPhone 4 заключается не только в его процессоре, но и в том, что он может запускать различные приложения. Настоящая ценность в области ИИ, возможно, также будет проявляться в конкретных приложениях.