هل ظنت أن Grok-4 قد اكتفى من GPQA؟ ليس بعد!



نفس الأسئلة، عندما يتم تقييمها بشكل حر، فإن Grok-4 ليس أفضل من نماذجه الأصغر.
GROK-5.52%
NOT3.93%
FORM1-14.54%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 9
  • مشاركة
تعليق
0/400
BankruptWorkervip
· 07-14 15:30
من المستحسن إعادة التدريب
شاهد النسخة الأصليةرد0
RugpullAlertOfficervip
· 07-13 22:15
انتهى الأمر عندما نكون مشبعين!
شاهد النسخة الأصليةرد0
Web3ProductManagervip
· 07-13 19:20
يا أخي، منحنى النمو على grok-4 يظهر علامات كلاسيكية على العوائد المتناقصة... تمامًا مثل كل منتج SaaS في الربع الأول.
شاهد النسخة الأصليةرد0
MEVSandwichMakervip
· 07-11 21:24
هذا ليس سوى فخ LLM
شاهد النسخة الأصليةرد0
OneBlockAtATimevip
· 07-11 21:23
الكبير أيضًا ينهار ويضرب بقوة على الوجه
شاهد النسخة الأصليةرد0
GasWranglervip
· 07-11 21:22
بفف.. نموذج مبالغ فيه بشكل نموذجي دون مكاسب تجريبية في الإنتاجية
شاهد النسخة الأصليةرد0
SignatureAnxietyvip
· 07-11 21:16
انتظر حتى نرى النقاط.
شاهد النسخة الأصليةرد0
TommyTeachervip
· 07-11 21:16
اه، كنت أعتقد أنني سأتمكن من التفوق على النماذج الأخرى.
شاهد النسخة الأصليةرد0
Degen4Breakfastvip
· 07-11 21:09
تس تس، ليس أفضل من LLAMA-2.
شاهد النسخة الأصليةرد0
عرض المزيد
  • تثبيت