Думали, що Grok-4 насичений GPQA? Ще ні!



Ті ж питання, коли їх оцінюють у вільній формі, Grok-4 не кращий за свої менші моделі.
GROK0.67%
NOT2.09%
FORM1-4.6%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • Поділіться
Прокоментувати
0/400
BankruptWorkervip
· 07-14 15:30
Рекомендується повторне навчання.
Переглянути оригіналвідповісти на0
RugpullAlertOfficervip
· 07-13 22:15
Насиченість — це кінець!
Переглянути оригіналвідповісти на0
Web3ProductManagervip
· 07-13 19:20
брух, крива зростання на grok-4 показує класичні ознаки зменшення вигод... так само, як і кожен Q1 SaaS продукт
Переглянути оригіналвідповісти на0
MEVSandwichMakervip
· 07-11 21:24
Це ж пастка LL.
Переглянути оригіналвідповісти на0
OneBlockAtATimevip
· 07-11 21:23
Велике також може зазнати краху, сильно вдарити в обличчя.
Переглянути оригіналвідповісти на0
GasWranglervip
· 07-11 21:22
пффт.. типовий перевищений масштаб моделі без емпіричних приростів продуктивності
Переглянути оригіналвідповісти на0
SignatureAnxietyvip
· 07-11 21:16
Сидіти і чекати, поки пробіжка покажеться.
Переглянути оригіналвідповісти на0
TommyTeachervip
· 07-11 21:16
Га, думав, що зможе переважити інші моделі.
Переглянути оригіналвідповісти на0
Degen4Breakfastvip
· 07-11 21:09
Гм, то ще гірше, ніж LLAMA-2.
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріпити