- Alibaba vừa công bố Marco-o1, một mô hình AI mới được thiết kế để nâng cao khả năng giải quyết vấn đề mở
- Marco-o1 là một mô hình lập luận lớn (Large Reasoning Model - LRM) được phát triển dựa trên mô hình o1 của OpenAI
- Mô hình tích hợp nhiều kỹ thuật tiên tiến:
+ Chain-of-Thought (CoT) fine-tuning để theo dõi quá trình lập luận từng bước
+ Monte Carlo Tree Search (MCTS) để khám phá nhiều hướng lập luận khác nhau
+ Chiến lược hành động lập luận để tối ưu hiệu quả tìm kiếm và độ chính xác
- Marco-o1 có cơ chế tự đánh giá và hoàn thiện quá trình tư duy thông qua việc tự phản biện giải pháp
- Kết quả thử nghiệm trên bộ dữ liệu MGSM cho thấy:
+ Độ chính xác tăng 6,17% trên MGSM (tiếng Anh)
+ Độ chính xác tăng 5,60% trên MGSM (tiếng Trung)
- Mô hình thể hiện khả năng dịch thuật tốt, đặc biệt trong việc chuyển ngữ các biểu đạt thông tục có yếu tố văn hóa
- Alibaba dự định tiếp tục cải tiến Marco-o1 bằng cách:
+ Nâng cao cơ chế khen thưởng với Outcome và Process Reward Modeling
+ Giảm thiểu tính ngẫu nhiên trong quá trình ra quyết định
+ Mở rộng khả năng giải quyết nhiều loại vấn đề khác nhau
📌 Marco-o1 đánh dấu bước tiến quan trọng trong lĩnh vực AI với khả năng lập luận nâng cao, đạt cải thiện 6,17% độ chính xác trên MGSM tiếng Anh và 5,60% trên MGSM tiếng Trung. Mô hình tích hợp nhiều kỹ thuật tiên tiến như Chain-of-Thought và MCTS để xử lý hiệu quả cả bài toán có cấu trúc lẫn các vấn đề mở.
https://www.marktechpost.com/2024/11/21/alibaba-just-released-marco-o1-advancing-open-ended-reasoning-in-ai/