Tại sao LLM dễ bị tổn thương bởi 'hiệu ứng cánh bướm'

  • Nghiên cứu từ Đại học Southern California Information Sciences Institute chỉ ra rằng thay đổi nhỏ trong cách tạo ra các lệnh (prompt) có thể làm thay đổi kết quả từ các mô hình ngôn ngữ lớn (LLMs) như ChatGPT.
  • Phương pháp thí nghiệm bao gồm việc yêu cầu LLM trả lời trong các định dạng thường dùng như Python List, JSON của ChatGPT, CSV, XML hoặc YAML, hoặc không yêu cầu định dạng cụ thể.
  • Các biến thể nhỏ như thêm một khoảng trắng trước hoặc sau lệnh, bắt đầu với lời chào hoặc kết thúc với lời cảm ơn, hoặc thay đổi từ câu hỏi sang lệnh đã gây ra hơn 500 thay đổi trong dự đoán.
  • Áp dụng kỹ thuật "jailbreak" như AIM hoặc Dev Mode v2 đã dẫn đến việc mô hình trả lời không hợp lệ trong khoảng 90% trường hợp, trong khi sử dụng Refusal Suppression và Evil Confidant gây ra hơn 2,500 thay đổi dự đoán.
  • Các thí nghiệm trên 11 nhiệm vụ phân loại cho thấy việc thêm định dạng xuất ra cụ thể đã dẫn đến ít nhất 10% thay đổi trong dự đoán, và thay đổi định dạng có thể làm giảm độ chính xác từ 3 đến 6%.
  • Các nhà nghiên cứu đề xuất rằng bước tiếp theo quan trọng là tạo ra LLMs không bị ảnh hưởng bởi những thay đổi nhỏ và cung cấp câu trả lời nhất quán, yêu cầu hiểu sâu hơn về nguyên nhân của sự thay đổi đáp ứng và phát triển phương pháp để dự đoán chúng tốt hơn.

📌 Nghiên cứu về "hiệu ứng bướm" trong các mô hình ngôn ngữ lớn (LLMs) như ChatGPT chỉ ra rằng những thay đổi nhỏ trong cách tạo ra lệnh có thể gây ra những thay đổi lớn về đầu ra. Các thí nghiệm đã chỉ ra rằng việc thêm một định dạng xuất ra cụ thể có thể dẫn đến ít nhất 10% sự thay đổi trong dự đoán và thay đổi định dạng có thể làm giảm độ chính xác từ 3 đến 6%. Sự nhạy cảm này đặt ra yêu cầu phát triển LLMs ổn định và đáng tin cậy hơn, với khả năng cung cấp câu trả lời nhất quán dù có sự thay đổi nhỏ trong lệnh kích hoạt. Các phát hiện từ nghiên cứu cung cấp cái nhìn quan trọng về cách thức LLMs xử lý thông tin và là bước đầu tiên cho việc cải thiện chúng.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo