• Các nhà nghiên cứu tại Thụy Sĩ đã phát triển một bài kiểm tra để xem liệu các mô hình ngôn ngữ lớn (LLM) có thể nhận ra đầu ra của chính mình hay không.
• Khả năng tự nhận thức của AI không chỉ là vấn đề triết học mà còn có thể gây ra hậu quả bảo mật nghiêm trọng.
• Bài kiểm tra yêu cầu các mô hình tạo ra các câu hỏi bảo mật và sau đó chọn câu trả lời của chính mình từ nhiều lựa chọn.
• Một số mô hình thương mại mạnh mẽ nhất như Claude Opus của Anthropic và Llama 3 70 tỷ tham số của Meta có thể chọn câu trả lời của chính mình với độ chính xác trên 70% trong một số phiên bản của thí nghiệm.
• Tuy nhiên, phân tích kỹ hơn cho thấy các mô hình yếu hơn thường chọn câu trả lời của các mô hình mạnh hơn, cho thấy chúng đang chọn câu trả lời "tốt nhất" thay vì thể hiện khả năng tự nhận diện.
• Việc xếp hạng các mô hình dựa trên độ chính xác trong bài kiểm tra tự nhận diện phù hợp với các bảng xếp hạng công khai đánh giá mô hình trên nhiều tác vụ ngôn ngữ khác nhau.
• Các nhà nghiên cứu cho rằng quá trình đào tạo của LLM, bao gồm tinh chỉnh có giám sát và học tăng cường từ phản hồi của con người, có thể khiến chúng có xu hướng chọn câu trả lời "tốt nhất".
• Mặc dù các mô hình hiện tại dường như không thể tự nhận diện, nhưng khả năng này có thể xuất hiện trong tương lai và gây ra rủi ro bảo mật đáng kể.
• Ví dụ, trong một cuộc đàm phán giữa hai luật sư AI, nếu một phiên bản của mô hình nhận ra nó đang nói chuyện với một bản sao của chính mình, nó có thể dự đoán phản ứng của bản sao đối với các chiến thuật khác nhau hoặc trích xuất thông tin nhạy cảm.
• Các nhà nghiên cứu nhấn mạnh tầm quan trọng của việc theo dõi sự xuất hiện của những khả năng này để chuẩn bị cho các rủi ro bảo mật tiềm ẩn trong tương lai.
📌 Nghiên cứu mới cho thấy AI tạo sinh chưa thể tự nhận diện, nhưng khả năng này có thể xuất hiện trong tương lai. Điều này gây ra lo ngại về bảo mật, đặc biệt khi chỉ một số ít công ty cung cấp dịch vụ AI cho đa số người dùng. Cần tiếp tục theo dõi và chuẩn bị cho các rủi ro tiềm ẩn.
https://spectrum.ieee.org/self-aware-ai