- OpenAI vừa ra mắt công cụ 'deep research' có tính phí, có khả năng tổng hợp thông tin từ hàng trăm trang web thành báo cáo dài nhiều trang kèm trích dẫn
- Công cụ này kết hợp khả năng lập luận của mô hình ngôn ngữ lớn o3 với khả năng tìm kiếm internet
- Google cũng đã phát hành công cụ tương tự vào tháng 12/2023, sử dụng Gemini 1.5 Pro
- Nhiều nhà khoa học đánh giá cao khả năng viết tổng quan và xác định khoảng trống kiến thức của công cụ này
- Derya Unutmaz, nhà miễn dịch học tại Jackson Laboratory nhận định báo cáo của OpenAI "cực kỳ ấn tượng" và "đáng tin cậy"
- Andrew White, chuyên gia AI tại FutureHouse cho rằng hệ thống AI có thể được sử dụng để cập nhật các bài tổng quan do con người viết
- OpenAI thừa nhận công cụ vẫn còn hạn chế: có thể trích dẫn sai, ảo giác về sự thật, không phân biệt được thông tin chính thống
- Trong bài kiểm tra Humanity's Last Exam (HLE) gồm 3.000 câu hỏi, công cụ của OpenAI đạt 26,6% với câu hỏi chỉ có văn bản
- Trong đánh giá GAIA benchmark, deep research đạt điểm 58,03%, cao hơn kết quả 40,82% của H2O.ai
- Cả hai công cụ đều không thể truy cập thông tin từ các bài báo khoa học có tường lửa, gây khó khăn cho việc nghiên cứu
📌 OpenAI và Google đã phát triển công cụ 'deep research' giúp tổng hợp thông tin nhanh chóng. Mặc dù ấn tượng với điểm số 58,03% trong GAIA benchmark, công cụ vẫn có nhiều hạn chế về độ chính xác và khả năng truy cập dữ liệu có tường lửa.
https://www.nature.com/articles/d41586-025-00377-9
#NATURE