Andrej Karpathy đánh giá Grok-3 của xAI có khả năng ngang bằng với o1 Pro của OpenAI

  • xAI của Elon Musk vừa ra mắt dòng mô hình mới nhất Grok-3, là mô hình đầu tiên đạt điểm trên 1.400 tại nền tảng đánh giá Chatbot Arena

  • Andrej Karpathy, người sáng lập Eureka Labs và cựu nghiên cứu viên của OpenAI và Tesla, được cấp quyền truy cập sớm để thử nghiệm Grok-3

  • Trong bài kiểm tra tạo lưới lục giác cho trò chơi Settlers of Catan:

    • Grok-3 thực hiện thành công

    • OpenAI o1 Pro (giá 200 USD/tháng) cũng làm được

    • DeepSeek-R1, Gemini 2.0 Flash Thinking và Claude đều thất bại

  • Về khả năng phân tích số flops cần thiết từ tài liệu kỹ thuật GPT-2:

    • Grok-3 thông thường và GPT-4o thất bại

    • Grok-3 với chế độ lập luận thực hiện xuất sắc

    • OpenAI o1 Pro không hoàn thành được nhiệm vụ

  • Đánh giá về tính năng DeepSearch:

    • Tương đương với nghiên cứu sâu của Perplexity

    • Chưa đạt đến trình độ của OpenAI

    • Còn hiện tượng ảo giác về URL không tồn tại

    • Cung cấp thông tin không chính xác và thiếu trích dẫn

  • Sau 2 giờ thử nghiệm, Karpathy kết luận Grok-3 với chế độ lập luận:

    • Ngang tầm với các mô hình mạnh nhất của OpenAI

    • Vượt trội hơn DeepSeek-R1 và Gemini 2.0 Flash Thinking

📌 Grok-3 đã thiết lập kỷ lục mới trên 1.400 điểm tại Chatbot Arena. Mô hình thể hiện khả năng lập luận ngang bằng với o1 Pro của OpenAI (200 USD/tháng) và vượt trội hơn các đối thủ như DeepSeek-R1, tuy nhiên vẫn cần cải thiện tính năng DeepSearch và độ chính xác trong trích dẫn thông tin.


 

https://analyticsindiamag.com/ai-news-updates/grok-3-beats-deepseek-r1-at-reasoning-is-as-capable-as-openais-o1-pro-karpathy/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo