xAI của Elon Musk vừa ra mắt dòng mô hình mới nhất Grok-3, là mô hình đầu tiên đạt điểm trên 1.400 tại nền tảng đánh giá Chatbot Arena
Andrej Karpathy, người sáng lập Eureka Labs và cựu nghiên cứu viên của OpenAI và Tesla, được cấp quyền truy cập sớm để thử nghiệm Grok-3
Trong bài kiểm tra tạo lưới lục giác cho trò chơi Settlers of Catan:
Grok-3 thực hiện thành công
OpenAI o1 Pro (giá 200 USD/tháng) cũng làm được
DeepSeek-R1, Gemini 2.0 Flash Thinking và Claude đều thất bại
Về khả năng phân tích số flops cần thiết từ tài liệu kỹ thuật GPT-2:
Grok-3 thông thường và GPT-4o thất bại
Grok-3 với chế độ lập luận thực hiện xuất sắc
OpenAI o1 Pro không hoàn thành được nhiệm vụ
Đánh giá về tính năng DeepSearch:
Tương đương với nghiên cứu sâu của Perplexity
Chưa đạt đến trình độ của OpenAI
Còn hiện tượng ảo giác về URL không tồn tại
Cung cấp thông tin không chính xác và thiếu trích dẫn
Sau 2 giờ thử nghiệm, Karpathy kết luận Grok-3 với chế độ lập luận:
Ngang tầm với các mô hình mạnh nhất của OpenAI
Vượt trội hơn DeepSeek-R1 và Gemini 2.0 Flash Thinking
📌 Grok-3 đã thiết lập kỷ lục mới trên 1.400 điểm tại Chatbot Arena. Mô hình thể hiện khả năng lập luận ngang bằng với o1 Pro của OpenAI (200 USD/tháng) và vượt trội hơn các đối thủ như DeepSeek-R1, tuy nhiên vẫn cần cải thiện tính năng DeepSearch và độ chính xác trong trích dẫn thông tin.
https://analyticsindiamag.com/ai-news-updates/grok-3-beats-deepseek-r1-at-reasoning-is-as-capable-as-openais-o1-pro-karpathy/