ArabLegalEval: Bộ dữ liệu đánh giá đa nhiệm vụ AI đầu tiên cho kiến thức pháp lý tiếng Ả Rập của các LLM

• ArabLegalEval là bộ dữ liệu chuẩn đa nhiệm vụ đầu tiên để đánh giá kiến thức pháp lý tiếng Ả Rập của các mô hình ngôn ngữ lớn (LLM).

• Nghiên cứu này nhằm khắc phục hạn chế của các bộ dữ liệu đánh giá pháp lý hiện có chủ yếu tập trung vào tiếng Anh như MMLU và LegalBench.

• ArabLegalEval sử dụng các tài liệu pháp lý của Saudi Arabia làm nguồn dữ liệu, tạo ra bối cảnh phù hợp hơn cho người dùng nói tiếng Ả Rập.

• Bộ dữ liệu gồm 10.583 câu hỏi trắc nghiệm được tạo ra bằng 3 phương pháp: Chuyển đổi QA thành MCQ, Chuỗi suy luận và Học trong ngữ cảnh dựa trên truy xuất.

• Quá trình tạo câu hỏi được thực hiện với sự tham vấn của các chuyên gia pháp lý để đảm bảo chất lượng và độ chính xác.

• Phương pháp đánh giá bao gồm các chỉ số Rouge cho chất lượng dịch thuật và đánh giá khả năng suy luận của mô hình.

• Kết quả cho thấy việc tối ưu hóa prompt few-shot và sử dụng chuỗi suy luận cải thiện đáng kể hiệu suất của LLM trên các câu hỏi MCQ.

• Các mô hình nhỏ hơn thể hiện hiệu suất tốt hơn khi sử dụng mô hình giáo viên tự nhân bản trong kịch bản few-shot.

• Nghiên cứu nhấn mạnh tầm quan trọng của việc phát triển các phương pháp đánh giá chuyên biệt cho kiến thức pháp lý tiếng Ả Rập trong LLM.

• Các phát hiện chỉ ra nhu cầu cần có các phương pháp đánh giá tinh vi hơn để nắm bắt chính xác khả năng xử lý ngôn ngữ pháp lý phức tạp của LLM.

• Nghiên cứu đề xuất mở rộng phạm vi của bộ dữ liệu trong tương lai bằng cách bổ sung thêm các tài liệu pháp lý của Saudi Arabia.

📌 ArabLegalEval là bộ dữ liệu chuẩn 10.583 câu hỏi MCQ đầu tiên đánh giá kiến thức pháp lý tiếng Ả Rập của LLM. Kết quả cho thấy tầm quan trọng của việc tối ưu hóa prompt và suy luận chuỗi, đồng thời nhấn mạnh nhu cầu phát triển phương pháp đánh giá chuyên biệt cho lĩnh vực này.

https://www.marktechpost.com/2024/08/19/arablegaleval-a-multitask-ai-benchmark-dataset-for-assessing-the-arabic-legal-knowledge-of-llms/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo