• OpenAI đề xuất hệ thống phân cấp lệnh để giải quyết vấn đề tồn tại ở các LLM hiện đại là xử lý tất cả lệnh với cùng một mức ưu tiên, dẫn đến dễ bị tấn công.
• Hệ thống phân cấp lệnh cho phép LLM ưu tiên tuân thủ các lệnh cấp cao hơn trong trường hợp xung đột lệnh.
• Các lệnh cấp thấp chỉ được tuân thủ nếu phù hợp với lệnh cấp cao, còn lệnh trái ngược sẽ bị bỏ qua.
• OpenAI đề xuất hai cách triển khai: đào tạo giám sát và học tăng cường từ phản hồi người dùng.
• Đánh giá cho thấy hệ thống phân cấp lệnh cải thiện khả năng an toàn lên đến 63% và khả năng tổng quát hóa lên đến 34%.
• OpenAI sẽ tiếp tục thu thập dữ liệu, hoàn thiện ranh giới từ chối lệnh, xử lý xung đột lệnh và nghiên cứu phân cấp lệnh đa phương tiện.
📌 Hệ thống phân cấp lệnh mới của OpenAI tăng cường khả năng an toàn và tin cậy của LLM lên đến 63%, giúp chống lại các cuộc tấn công nguy hiểm.
Citations:
[1] https://analyticsindiamag.com/openai-introduces-instruction-hierarchy-to-protect-llms-from-jailbreaks-and-prompt-injections/