Grok-4がGPQAを飽和させたと思いましたか?まだです!



同じ質問ですが、自由形式で評価すると、Grok-4はその小型モデルよりも優れていません。
GROK5.88%
NOT4.49%
FORM1-5.88%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 9
  • 共有
コメント
0/400
BankruptWorkervip
· 07-14 15:30
再訓練をお勧めします
原文表示返信0
RugpullAlertOfficervip
· 07-13 22:15
飽和したら終わり!”
原文表示返信0
Web3ProductManagervip
· 07-13 19:20
ブレuh、grok-4の成長曲線は、クラシックな収益の減少の兆候を示しています...まるですべてのQ1 SaaS製品のように。
原文表示返信0
MEVSandwichMakervip
· 07-11 21:24
これは罠のLLMではないか
原文表示返信0
OneBlockAtATimevip
· 07-11 21:23
大きなものもひっくり返って、思い切り顔を叩く
原文表示返信0
GasWranglervip
· 07-11 21:22
ふん.. 実証的なスループット向上なしに、典型的な過剰評価されたモデルスケーリング
原文表示返信0
SignatureAnxietyvip
· 07-11 21:16
待ってスコアを見てみましょうか
原文表示返信0
TommyTeachervip
· 07-11 21:16
ああ、他のモデルを圧倒できると思っていたのに。
原文表示返信0
Degen4Breakfastvip
· 07-11 21:09
啧 まだLLAMA-2の方がいいですね
原文表示返信0
もっと見る
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)