- xAI, công ty AI của Elon Musk giới thiệu Grok-1.5V, mô hình đa phương thức thế hệ đầu tiên có khả năng xử lý nhiều loại thông tin hình ảnh như tài liệu, sơ đồ, biểu đồ, ảnh chụp màn hình và ảnh.
- Grok-1.5V sẽ sớm có mặt cho người dùng thử nghiệm sớm và người dùng Grok hiện tại.
- Tính năng nổi bật của Grok-1.5V là khả năng hiểu các khái niệm không gian trong thế giới thực, vượt trội hơn các mô hình khác trong bài kiểm tra RealWorldQA.
- So sánh với các mô hình hàng đầu như GPT-4V, Claude 3 Sonnet, Claude 3 Opus và Gemini Pro 1.5, Grok-1.5V thể hiện lợi thế cạnh tranh trên nhiều bài kiểm tra.
- Grok-1.5V có thể chuyển đổi thông tin hình ảnh phức tạp thành mã lập trình, ví dụ như chuyển lưu đồ mô tả trò chơi đoán số thành mã Python.
- Các nhà phát triển kỳ vọng Grok-1.5V sẽ có cải tiến đáng kể về khả năng đa phương thức trên hình ảnh, âm thanh, video, hướng tới xây dựng AI tổng quát có lợi (AGI).
- Trước đó, xAI đã giới thiệu Grok-1.5 với khả năng lập luận nâng cao, độ dài ngữ cảnh 128.000 token và đánh bại Mistral Large trên nhiều bài kiểm tra như MMLU, GSM8K, HumanEval.
📌 Grok-1.5V của xAI thể hiện khả năng xử lý thông tin hình ảnh vượt trội, đánh bại GPT-4V và các mô hình hàng đầu khác trên nhiều bài kiểm tra. Với tiềm năng cải tiến đa phương thức, Grok-1.5V hứa hẹn là bước tiến quan trọng hướng tới việc xây dựng AGI hiểu và tương tác toàn diện với thế giới.
Citations:
[1] https://analyticsindiamag.com/elon-musks-xai-unveils-grok-1-5-vision-beats-openais-gpt-4v/