Думали, что Grok-4 насыщен GPQA? Пока нет!



Те же вопросы, когда они оцениваются в свободной форме, Grok-4 ничем не лучше своих меньших моделей.
GROK-4.11%
NOT-1.98%
FORM113.55%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • Поделиться
комментарий
0/400
BankruptWorkervip
· 07-14 15:30
Рекомендуется переобучение.
Посмотреть ОригиналОтветить0
RugpullAlertOfficervip
· 07-13 22:15
Если будет насыщение, всё пропало!
Посмотреть ОригиналОтветить0
Web3ProductManagervip
· 07-13 19:20
бро, кривая роста на grok-4 показывает классические признаки убывающей отдачи... так же как и каждый продукт saas в первом квартале
Посмотреть ОригиналОтветить0
MEVSandwichMakervip
· 07-11 21:24
Это же ловушка LL.
Посмотреть ОригиналОтветить0
OneBlockAtATimevip
· 07-11 21:23
Большие также терпят неудачи, сильно бьют по лицу.
Посмотреть ОригиналОтветить0
GasWranglervip
· 07-11 21:22
пффт.. типичное раздувание модели без эмпирического увеличения пропускной способности
Посмотреть ОригиналОтветить0
SignatureAnxietyvip
· 07-11 21:16
Сижу и жду, чтобы посмотреть, как пройдет оценка.
Посмотреть ОригиналОтветить0
TommyTeachervip
· 07-11 21:16
Ха, думал, что смогу уничтожить другие модели.
Посмотреть ОригиналОтветить0
Degen4Breakfastvip
· 07-11 21:09
Цзэ, еще не лучше, чем LLAMA-2.
Посмотреть ОригиналОтветить0
Подробнее
  • Закрепить