- Tháng 3/2023, OpenAI tuyên bố GPT-4 đạt điểm cao hơn 90% thí sinh trong kỳ thi luật sư Uniform Bar Examination (UBE), gây chấn động giới pháp lý.
- Tuy nhiên, nghiên cứu mới từ Eric Martínez (MIT) chỉ ra rằng con số trên thực tế chỉ so sánh GPT-4 với nhóm thí sinh thi lại, vốn có điểm số thấp hơn nhiều so với mặt bằng chung.
- Khi so sánh rộng rãi hơn, GPT-4 chỉ đạt phân vị thứ 69 trong tổng số thí sinh và phân vị 48 với nhóm thi lần đầu.
- Đặc biệt, GPT-4 có kết quả trung bình và dưới trung bình ở phần thi viết luận, vốn là phần quan trọng nhất đánh giá năng lực thực tế của luật sư.
- Nghiên cứu cũng chỉ ra một số vấn đề trong phương pháp chấm điểm bài luận của GPT-4 trong nghiên cứu gốc.
- Martínez cảnh báo cần đánh giá cẩn trọng các hệ thống AI trước khi đưa vào ứng dụng pháp lý, tránh gây hậu quả nghiêm trọng ngoài ý muốn.
📌 Mặc dù GPT-4 có những bước tiến ấn tượng so với phiên bản trước, nghiên cứu mới cho thấy mô hình này chỉ đạt kết quả khiêm tốn trong kỳ thi luật sư UBE, đặc biệt ở phần thi viết luận quan trọng. Điều này cho thấy các hệ thống AI tạo sinh hiện tại vẫn còn hạn chế trong việc đảm nhiệm các công việc thực tế của luật sư và cần được đánh giá kỹ lưỡng trước khi triển khai rộng rãi trong lĩnh vực pháp lý.
https://www.livescience.com/technology/artificial-intelligence/gpt-4-didnt-ace-the-bar-exam-after-all-mit-research-suggests-it-barely-passed