「より重要な瞬間は、基本モデルに基づいて、SFT やその他のメカニズムや構造を下流のタスクに効率的に適用できるとき、そして金融業界や他の業界モデルの下流のタスクに規模効果があるときです。」 Moyuan Innovation Business Center の責任者である Chen Haiqing 氏は、これは普遍的な非構造化データを使用した継続的なトレーニングのための業界の大規模なモデルとシナリオの始まりにすぎません。
大規模モデルの分野では、BaiduやOpenAI/Microsoftといった国内メーカーの軌跡を比較するのも興味深いが、ChatGPTが世界的な現象レベルの人気を示したとき、なぜ中国でChatGPTを生産できないのかを疑問視する声もあった。結局のところ、多くの人はまだ表面的なコンセンサスを持っています - 「中国の AI はビジネス アプリケーションと商業化能力に傾いている」 率直に言うと、中国の AI は忍耐力が低く、金儲けを望んでいます。
業界モデル、本を開いてください!
出典: Titanium Media、著者: Zhang Shuai
「Wenxinyiyan は急いで立ち上げられたようです。これはまったく金儲けのためではなく、ChatGPT ブームに追いつくためだと思います。本当に商業的価値を生み出すことができるのは、業界の大型モデルです。」 Baidu のリリース直後元Baidu従業員のWenxinyiyan氏はTitanium Mediaに対し、「OpenAIがそれほど人気がなかった昨年、王氏(Baidu CTOの王海峰)はチームを率いて、大規模な業界モデルを含む10の大規模モデルを構築した。当時、 、業界外ではあまり注目されていませんでしたが、今の Baidu のレイアウトを見ると、大きな業界モデルは実際には、OpenAI や Microsoft よりも前の、将来を見据えたレイアウトです。」
今日、汎用大規模モデルの喧噪を経て、インダストリー モデルが徐々に勢いを増しており、これもこの現実を裏付けています。ChatGPT のような基本的な大規模モデルは「泣ける」声を獲得しており、これは教育における役割を大きく担っています。市場と認知の形成、人工知能は実際に実装され、現在のお金を稼ぐことになりますが、業界の大規模なモデルにも依存します。
海外市場においても、Cエンド製品の属性としてのChatGPTは徐々に弱まっており、SimilarWebのデータによると、初期段階のChatGPTの訪問者数の伸び率は驚異的で、前月比伸び率は131.6でした。 1月は%、2月は62.5%でしたが、3月は55.8%でしたが、4月は前月比伸び率が12.6%と大幅に鈍化し、5月には2.8%に変化しました。 6月の前月比成長率はマイナスになる可能性があると予想されている。
「私たちの多くがChatGPTを試したことがあると思います。そして、多くの人が試した後脇に置いたと思います。それは現在基本的に私たちの仕事から切り離されているため、使用した後はやめました。しかし、私はまだ願っていますこれは破壊的な変化をもたらすパラダイム革命だからだ、誰もが「早起きして遅刻のエピソードに気づく」ことはない」とマイクロソフト(中国)最高技術責任者(CTO)のウェイ・チン氏は以前述べた。
ChatGPT または大規模モデルに基づく B サイド ソリューションは、大規模モデルとシーン間の分離を解決する良い方法です。
海外ではマイクロソフトやアマゾンなどの大手企業もエンタープライズレベルのサービスから商用化の道を模索し始め、多業種への進出を始めており、国内では百度、アリババ、テンセント、ファーウェイなどが大規模産業への投資を加速している。モデル。さらに、世界中の多くの業界リーダーや新興企業も大規模な産業モデルの展望を模索しており、最近、北京市科学技術委員会と中関村管理委員会も、10件の応用事例の最初のバッチを発表した。北京における大規模な人工知能産業モデル。さらに、関連技術ルートの合併・買収の額も過去最高に達しています...
アップグレード: 千モデル戦争
基本モデルが「百モデル戦争」だとすれば、業界の大規模モデルは「千モデル戦争」であり、幹が枝を伸ばすように、各基本大型モデルメーカーは複数の業界大型モデルを育成することができます。 .全会一致。
「汎用大規模モデルには誰もが高い期待を寄せているが、必ずしも業界シナリオのニーズを満たす最適なソリューションではない。」 6月19日、テンセントクラウド業界大規模モデルカンファレンスにて、常務執行役員テンセントグループのクラウド社長、スマートインダストリービジネスグループの唐道生CEOはこう語った。
Hunyuan Assistant が一般公開しなかった場合、Tencent は率先して大規模なインダストリ モデルをリリースし、Tencent Cloud TI プラットフォームを利用して大規模なインダストリ モデルの選択を構築し、顧客に次のようなサービスを提供します。 MaaSサービスを停止し、法人顧客の専用大規模モデルやスマートアプリケーションの構築を支援します。 Tencentが今後Cエンドの一般モデルに関する公式情報を公開する予定であることがテンセントから分かりました。
この一連の措置は、渾源基本大型モデルの効果や進捗状況とは無関係に、業界大型モデルの優先リリースは、テンセントが自らの評判を確保し、市場顧客を獲得するために必要な措置であると理解できるかもしれない。顧客は緊急に必要としています。
以前、ファーウェイ・クラウドの人工知能分野の主任科学者であるティアン・チー氏は、ファーウェイが大規模モデルをL0、L1、L2の3つのレベルに分けており、L0はGPT-3のような基本的な一般モデルと誰もが呼ぶものであると述べました。 、基本モデル L0 に基づいて、業界データを加えた、混合トレーニングによって得られた業界大規模モデルは L1 です。
次に、下流の数千の業界の特定の細分化シナリオに対して L1 が展開され、細分化シナリオのタスク モデル L2 が取得されます。生産コストを削減し、できるだけ早く効率を向上させるために、大規模な産業から L2 モデルを迅速に生成する方法が求められます。インダストリ モデル L1、L2 モデルをデバイス側、エッジ側、クラウド側に展開することは非常に重要な問題です。
7月に開催されるファーウェイ開発者カンファレンスの議題には、ファーウェイ・クラウドがPanguモデルがどのようにして基本モデルから業界モデルへと洗練されたかについて一連の解釈とリリースが行われることが記載されている。
今年の Alibaba Cloud サミットでは、Alibaba Cloud CTO の周 Jingren 氏も次のように述べています。「現在、すべての企業がゼロからトレーニングを開始する必要はなく、また、多数のコンピューティング能力を含むさまざまなコーパスを作成するために全員がゼロから始める必要もない」モデルの一連のカスタマイズにより、今日の同義前文モデルに基づいて、企業のシナリオ、企業の知識システム、業界の企業の特別なニーズと組み合わせて、企業固有の各モデルが生成される。」
Microsoft は独自のインダストリ モデルも作成しています。 4 月に中国では、Microsoft Azure OpenAI Service の国際版が、小売電子商取引、製造、デジタル ネイティブ分野向けの Azure グローバル イノベーション産業シナリオの最初の 3 セットをリリースし、地元の企業ユーザー向けに GPT-3 と GPT-4 を統合しました。 、Codex、DALL-E、およびエンタープライズレベルの ChatGPT という 5 つの大規模モデル サービスは、中国の海外企業顧客が世界市場への拡大を加速するのを支援します。
「千模型戦争」が勃発しようとしているが、本格的に砂を洗う大波の段階に入るにはまだ時期尚早で、全体としては大型模型の開発は比較的初期段階にあるものの、業界の大型モデルが集中しているため、このトラックには明らかにより多くの余地があります。
金融業界という大きなモデルを例にとると、証券会社、保険、銀行、新興金融などの分野に分かれており、各分野の下流業務は数十、数百のサブタスクに分かれています。
「より重要な瞬間は、基本モデルに基づいて、SFT やその他のメカニズムや構造を下流のタスクに効率的に適用できるとき、そして金融業界や他の業界モデルの下流のタスクに規模効果があるときです。」 Moyuan Innovation Business Center の責任者である Chen Haiqing 氏は、これは普遍的な非構造化データを使用した継続的なトレーニングのための業界の大規模なモデルとシナリオの始まりにすぎません。
賢明で現実的な選択
企業が数千億のパラメータを持つ基本的な大規模モデルを作成したい場合、単一マシン クラスタ内で 10,000 枚を超えるカードの計算能力が必要です。これには GPU カードだけでなく、GPU クラスタ リソースの利用も必要です。 、ほとんどの企業ではそれができません。
大規模なインダストリ モデルは明らかに実現が容易であり、応用の可能性も広がります。
「大規模モデルは何千もの業界に力を与えることができますが、何千もの業界のシナリオをよく理解しておく必要があり、企業ユーザーが簡単に使用できる数千億または数兆の大規模モデルをトレーニングすることは期待できません。 」と蘭州科技の創始者、周明氏は語った。 「一般モデルから業界モデルまで、ユーザーのシナリオに合わせたラストワンマイルを行う必要がある。」
基本的な大規模モデルに必要な投資を評価し、長所と短所、損得を比較検討した後、企業顧客はすぐに大規模インダストリ モデルに注目し、メーカーは大規模インダストリ モデルにより多くのエネルギーを注ぐようになりました。
Tang Daosheng氏は、「現在の汎用大規模モデルは一般に広範な公開文献やネットワーク情報に基づいて訓練されている。インターネット上の情報には誤り、噂、偏見が含まれている可能性がある。多くの専門知識や業界データの蓄積が不十分である」と率直に述べた。その結果、モデルの業界固有の精度と精度が十分ではなく、データの「ノイズ」が大きすぎます。
ただし、多くの産業シナリオでは、ユーザーは企業が提供する専門サービスに対する高い要求を持っており、耐障害性は低いです。企業が誤った情報を提供すると、多大な法的責任や広報上の危機を引き起こす可能性があります。したがって、企業が使用する大規模モデルは、制御可能、追跡可能、修正可能である必要があり、開始前に繰り返し完全にテストする必要があります。
「顧客は、非常に実用的なインテリジェント サービスを作成するために、トレーニングや微調整用の企業独自のデータと組み合わせた、より業界固有のインダストリ モデルを必要としていると考えています。企業が必要としているのは、実際のシナリオで問題を真に解決することです。 100 のシーンで問題の 70% ~ 80% を解決するのではなく、特定の問題を解決する必要があります。」と Tang Daosheng 氏は言いました。
Baidu Smart Cloudの副社長Zhu Yong氏も、「国内外の状況を見ると、汎用モデルはそれほど多くないことがわかります。市場に出ている一部のメーカーは実際に比較的小型のモデルを製造しています。それどころか、 , ドメイン モデルは特別です。一般モデルには一般的な知識の能力しかないため、ドメイン モデルは特定の業界やドメインのタスクの期待に合わせて調整し、ビジネスの実際の問題を解決できます。このプロセスは非常に重要です。ただし、このプロセスに必要なコストとリソースは、基礎となる一般的なモデルを最初から実行するよりもはるかに少なくなります。」
同時に同氏は、将来的には基本モデル(基礎となる一般モデル)は少数になるかもしれないが、専門分野のデータや業界のノウハウと組み合わせることで、さまざまな種類のドメインモデルがその上に成長するだろうとも判断した。これらのドメイン モデルは将来的に非常に繁栄し、上位層をサポートし、繁栄するドメイン アプリケーションになります。
Baidu Smart CloudとState Gridが作成したエネルギー産業の大規模モデル「State Grid-Baidu Wenxin」を例に挙げると、Baidu Smart CloudはState Gridの専門家と協力して、State Gridが電力事業で蓄積したサンプルをシステムに導入しました。一般的な大規模モデルのデータと独自の知識、そしてトレーニングでは、事前トレーニングアルゴリズムとビジネスと電力分野のアルゴリズムにおける双方の経験を組み合わせ、電力分野におけるエンティティ識別や文書識別などのアルゴリズムを設計しますWenxin の大型モデルが電力分野で専門知識を深く学習できるように、エネルギー分野における実際のビジネス上の問題を真に解決し、コスト削減と効率向上の目的を達成します。
Zhu Yong氏は、「一般モデルとドメインモデルの違いは、大学を出た幅広い知識を持った人に例えられる。彼は多少の医学知識は知っているかもしれないが、患者を診断することはできず、専門の医師ではない」と述べた。 。高い総合力をもとに医学知識を深く学び、医療現場に価値を貢献できるプロフェッショナルな医師になることをドメインモデルとしています。
幅広い知識を備えた一般的なモデルから専門的な医療モデルまで、このプロセスに必要なリソースのコストは、一般的な大規模なモデルを一から構築する場合よりもはるかに少ないですが、専門的なデータが存在する必要があることが強調されています。専門分野のタスクによって刺激され、そのような能力が生み出されます。
インダストリ モデルのやり方
大規模モデル自体は新しいものであり、以前のソフトウェア開発パラダイムを変えました。メーカーは、顧客が業界の大規模モデルをより早期かつ迅速に磨き上げるのに役立つ新しいツール チェーンとプラットフォームを必要としています。
ビッグモデル時代の到来により、ラストワンマイルの効率は大幅に向上します。周明氏は、主に企業が多くの機能エンジンを提供し、ユーザーは効率向上のためのアシスタントとなるという事実に基づいて、新世代のソフトウェア開発パラダイムが具体化しつつあり、これに基づいて新しいアプリケーションを構築することが容易であると述べた。
Wenxin Qianfan 大規模モデル プラットフォームを例に挙げると、エンタープライズ開発者向けの大規模モデル開発とサービス運用をワンストップで提供するプラットフォームです。基盤となるモデル (ERNIE-Bot) とサードパーティのオープンソース大規模モデルを提供するだけでなく、顧客が大規模モデル アプリケーションを簡単に使用および開発できるよう、さまざまな AI 開発ツールと完全な開発環境も提供します。
データ管理、モデルSFTの自動化、推論サービスのクラウド展開などにおいて、メーカーはワンストップの大規模モデルカスタマイズサービスの実現を望んでいます。さまざまなメーカーの大規模モデル構築プラットフォームの機能は基本的に似ていますが、違いは使いやすさ、エフェクトの品質、サポートされるソフトウェアとハードウェアにあります。
「大きなモデルを作るのは確かに安くはありませんが、最終的に大きなモデルのサービスを推進できる理由は 2 つだけです。1 つ目は、モデルの効果が優れていることと、モデルの効果が良くないことです。言うまでもなく、2 番目はコストです」とスマート クラウド AI およびビッグ データ プラットフォームのゼネラル マネージャーである Baidu Xin Zhou 氏は述べています。
実際には、インダストリ モデルは一般モデルに依存する必要があります。たとえば、一般教育において、より優れた一般モデルがなければ、特定の業界での応用効果について語ることはできません。ブルームバーグとジョンズ・ホプキンス大学が共同で立ち上げた「ブルームバーグGPT」はその一例で、そのデータ配分は一般的な基礎モデルデータが半分、金融業界の公開データが半分、ブルームバーグ独自のデータが0.6%となっている。
「どのモデルでも、より良いレベルのインテリジェンスや基本機能を実現するには、比較的適切な数のパラメータを使用して基本モデルをトレーニングし、その後、業界の専門データを基本モデルに統合してインダストリ モデルを作成する必要があります。」 Xin 氏周氏は語った。
Baidu のアイデアは、「大手」 (Wenxin Yiyan) と非常に完成度の高いツール プラットフォーム (Wenxin Qianfan) を立ち上げ、顧客の実際のニーズに応じて差別化されたモデル サービスを提供し、顧客が最もコスト効率の高い選択をできるように支援することです。企業が大型モデルを導入する際に、価格がボトルネックになることはないと考えている。
モデルの呼び出しコストやトレーニング コストに加えて、Baidu は企業のさらなるコスト削減にも貢献します。企業が比較的狭い分野にのみ焦点を当てている場合、Baidu には比較的低パラメータのバージョンもあります。これにより、モデルの効果を確保しながら、モデルのトレーニングにかかるコストが大幅に下がります。
実際、大規模なインダストリ モデルの構築コストについての普遍的な標準はありません。
まず、基本的な大規模モデルが異なれば、パラメーターの仕様も異なります。ソフトウェアとハードウェアへの投資は、モデルの基本パラメーターと機能に応じて動的に変更する必要があります。パラメータが数百億の場合、A100 カードはダウンストリーム タスクを実行して開始することもできます。
現在、比較的集中しているアプリケーション シナリオの要件は、インテリジェントな質問応答、インテリジェントなライティング、ナレッジ マネジメントにおけるインテリジェントな作成、さらにはインターネット全体にわたるマーケティング シナリオやコード生成の要件など、このカテゴリに分類されます。
第 2 に、コストはデータ量とアプリケーションの方向に関係します。現在のグローバル大規模モデルの価格は、1000 トークンを基本単位としています。企業の下流タスクが非常に単純で、数万のトークンだけで実行できる場合、そのコストは非常に低くなり、必要な GPU カードの数も非常に少なくなります。大規模なインダストリ モデルの構築に必要なデータ量は通常 G 単位、さらには T 単位であるため、オフライン トレーニングのコストは非常に高くなります。
**レースを走っているのは誰ですか? **
大規模なモデルトラックにはプレイヤーが集まり、今回は一流インターネット企業だけでなく、より多くの業界リーダーや新興企業も参加しました。
どの業界が先頭に立って突破口を開くことができるでしょうか?連携事例の業種を見てもわかると思いますが、記事冒頭の表にあるように、金融、医療、教育、自動運転などの分野での利用が多いです。
例えば、アリババクラウドは4月に同義大型モデルをリリースした際、多くの企業との協力探査を開始したことを発表しており、最初の協力企業にはOPPO Andes Smart Cloud、吉利汽車、志吉汽車、奇瑞新能源、 Momo Zhixing、Swire Coca-Cola、波司登、Palm Technology などレポートによると、金融業界、小売業界、および一部の大規模消費者向けシナリオや業界では、企業または業界固有のモデルを構築するのに便利な多くの公開データやシナリオ データが蓄積されています。
公開情報によると、Baidu Wenxin の大規模インダストリ モデルの数は 11 に達し、エネルギーと電力、金融、航空宇宙、メディア、映画とテレビ、自動車、都市管理、ガス、保険、エレクトロニクス製造、社会科学をカバーしています。
6月27日に北京で発表された人工知能産業における10件の大規模モデル適用事例の第一弾には、エネルギーと電力、医療健康、金融、自動運転、建設、科学研究、生活、質疑応答の分野が含まれる。報告によると、6月27日から7月30日までの期間中、北京科学技術委員会と中関村管理委員会は、都市統治、医療健康、科学研究、スマートファイナンス、スマートライフ、スマートなどの主要分野にも焦点を当てる予定だという。都市を対象とし、都市内のイノベーション課題を対象として、80を超える業界の大規模モデル適用事例プロジェクトを収集します。
「顧客とコミュニケーションをとると、多くの顧客は業界モデルについてあまり知らないことがわかりました。しかし、顧客は率先して百度の業界モデルを尋ねます。」と百度スマートクラウド AI プラットフォームの副ゼネラルマネージャー、李 Jingqiu 氏は述べています。インダストリ モデルにどのような機能を持たせたいのか、どのようなシステムやアプリケーションを使用するのか、誰が使用するのかなど、製品と顧客のニーズを分析します。これらのアプリケーション、そしてどのような効果を達成したいと考えていますか... これらの質問をすると、実際に顧客を見つけることができます。必要なのは、Wenxin Qianfan のツール チェーン SFT に基づく大規模なモデル、または業界向けに事前トレーニングされたモデルです。後者は、データ処理、コンピューティング パワー層でのリソース割り当てなどの技術的な問題から、業界の一般的なデータに関する長期トレーニングに至るまで、構築と展開に少なくとも数か月、場合によっては昨年からかかります。
基本的な大型モデルの喧騒から、2023年下半期に向けて業界の大型モデルが始まり、本格的なビジネス変革が加速することになる。
大規模モデルの分野では、BaiduやOpenAI/Microsoftといった国内メーカーの軌跡を比較するのも興味深いが、ChatGPTが世界的な現象レベルの人気を示したとき、なぜ中国でChatGPTを生産できないのかを疑問視する声もあった。結局のところ、多くの人はまだ表面的なコンセンサスを持っています - 「中国の AI はビジネス アプリケーションと商業化能力に傾いている」 率直に言うと、中国の AI は忍耐力が低く、金儲けを望んでいます。
しかしその一方で、技術開発の最大の原動力は市場であり、時間やリズムの把握が異なる結果を生み出してきました。大規模なインダストリ モデルを例に挙げると、マイクロソフトはテクノロジーがさらに成熟するのを待っているか、あるいはその時期はまだ来ておらず、一歩遅すぎると感じています。国内メーカーは、基本的な大規模インダストリ モデルから急速に移行しています。スケールモデルから大規模インダストリーモデルまで、持続的な活力を持っています。
東に負けて桑で収穫、結果から言えば国内業界の大型モデルが速く走るのは悪いことではない。