OpenAI giới thiệu hệ thống phân cấp lệnh để bảo vệ các mô hình ngôn ngữ lớn (LLM) khỏi các cuộc tấn công jailbreak và chèn lệnh,

• OpenAI đề xuất hệ thống phân cấp lệnh để giải quyết vấn đề tồn tại ở các LLM hiện đại là xử lý tất cả lệnh với cùng một mức ưu tiên, dẫn đến dễ bị tấn công.

• Hệ thống phân cấp lệnh cho phép LLM ưu tiên tuân thủ các lệnh cấp cao hơn trong trường hợp xung đột lệnh.

• Các lệnh cấp thấp chỉ được tuân thủ nếu phù hợp với lệnh cấp cao, còn lệnh trái ngược sẽ bị bỏ qua.

• OpenAI đề xuất hai cách triển khai: đào tạo giám sát và học tăng cường từ phản hồi người dùng.

• Đánh giá cho thấy hệ thống phân cấp lệnh cải thiện khả năng an toàn lên đến 63% và khả năng tổng quát hóa lên đến 34%.

• OpenAI sẽ tiếp tục thu thập dữ liệu, hoàn thiện ranh giới từ chối lệnh, xử lý xung đột lệnh và nghiên cứu phân cấp lệnh đa phương tiện.

 

📌 Hệ thống phân cấp lệnh mới của OpenAI tăng cường khả năng an toàn và tin cậy của LLM lên đến 63%, giúp chống lại các cuộc tấn công nguy hiểm.

 

Citations:

[1] https://analyticsindiamag.com/openai-introduces-instruction-hierarchy-to-protect-llms-from-jailbreaks-and-prompt-injections/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo