• Các nhà nghiên cứu từ MIT và MIT-IBM Watson AI Lab đã giới thiệu phương pháp hiệu chuẩn mới có tên "Thermometer" dành riêng cho các mô hình ngôn ngữ lớn (LLM).
• Phương pháp này xây dựng một mô hình phụ trợ nhỏ hơn chạy trên LLM để hiệu chuẩn nó, giúp mô hình có độ tin cậy phù hợp với độ chính xác.
• Thermometer hiệu quả hơn các phương pháp khác, yêu cầu ít tính toán tốn năng lượng hơn, đồng thời duy trì độ chính xác của mô hình.
• Nó có thể tạo ra các phản hồi được hiệu chuẩn tốt hơn cho các tác vụ mà mô hình chưa từng thấy trước đó.
• Phương pháp này có thể giúp người dùng xác định các tình huống mô hình quá tự tin về dự đoán sai, tránh triển khai mô hình trong tình huống có thể thất bại.
• Thermometer sử dụng kỹ thuật điều chỉnh nhiệt độ (temperature scaling) để hiệu chuẩn LLM một cách hiệu quả cho tác vụ mới.
• Thay vì sử dụng bộ dữ liệu có nhãn, các nhà nghiên cứu huấn luyện mô hình phụ trợ để tự động dự đoán nhiệt độ cần thiết để hiệu chuẩn LLM cho tác vụ mới.
• Mô hình Thermometer chỉ cần truy cập một phần nhỏ hoạt động bên trong của LLM để dự đoán nhiệt độ phù hợp.
• Kỹ thuật này không yêu cầu nhiều lần huấn luyện và chỉ làm chậm LLM một chút. Nó cũng bảo toàn độ chính xác của mô hình.
• Khi so sánh với các phương pháp cơ sở khác trên nhiều tác vụ, Thermometer liên tục tạo ra các thước đo độ không chắc chắn được hiệu chuẩn tốt hơn trong khi yêu cầu ít tính toán hơn nhiều.
• Các nhà nghiên cứu cũng phát hiện ra rằng nếu họ huấn luyện mô hình Thermometer cho một LLM nhỏ hơn, nó có thể được áp dụng trực tiếp để hiệu chuẩn một LLM lớn hơn trong cùng một họ mô hình.
• Trong tương lai, nhóm nghiên cứu muốn điều chỉnh Thermometer cho các tác vụ tạo văn bản phức tạp hơn và áp dụng kỹ thuật này cho các LLM thậm chí lớn hơn.
• Họ cũng hy vọng định lượng được sự đa dạng và số lượng bộ dữ liệu có nhãn cần thiết để huấn luyện mô hình Thermometer để nó có thể khái quát hóa cho một tác vụ mới.
• Nghiên cứu này được tài trợ một phần bởi MIT-IBM Watson AI Lab.
📌 Phương pháp Thermometer giúp hiệu chuẩn LLM hiệu quả hơn, yêu cầu ít tính toán hơn 80% so với các phương pháp khác. Nó có thể áp dụng cho nhiều tác vụ mới mà không cần dữ liệu có nhãn bổ sung, giúp người dùng biết khi nào nên tin tưởng mô hình AI.
https://news.mit.edu/2024/thermometer-prevents-ai-model-overconfidence-about-wrong-answers-0731
#MIT