AI sinh-y-duoc 2024-09-15 05:03:43

MedFuzz: Phương pháp AI mới đánh giá độ mạnh mẽ của các mô hình hỏi đáp y tế trước nhiễu loạn

• Các nhà nghiên cứu từ Microsoft Research, MIT, Đại học Johns Hopkins và Helivan Research đã giới thiệu MedFuzz - một phương pháp kiểm tra đối kháng mới để đánh giá độ mạnh mẽ của các mô hình ngôn ngữ lớn (LLM) trong lĩnh vực hỏi đáp y tế.

• MedFuzz được thiết kế để khám phá khả năng của LLM bằng cách thay đổi các câu hỏi từ các bộ đánh giá y tế theo cách vi phạm các giả định cơ bản của các bài kiểm tra này.

• Phương pháp này dựa trên kỹ thuật fuzz phần mềm, nơi dữ liệu không mong đợi được đưa vào hệ thống để phát hiện lỗ hổng.

• MedFuzz bắt đầu bằng cách chọn một câu hỏi từ bộ đánh giá y tế như MedQA-USMLE, sau đó sửa đổi một số chi tiết của câu hỏi như đặc điểm bệnh nhân để thách thức khả năng diễn giải và phản hồi chính xác của LLM.

• Mục tiêu không phải là làm cho câu hỏi khó hơn mà là xem LLM có thể áp dụng lập luận y tế chính xác trong điều kiện thực tế phức tạp hơn bao gồm các chi tiết bệnh nhân phức tạp hay không.

• Kết quả thí nghiệm cho thấy ngay cả các mô hình có độ chính xác cao như GPT-4 và các phiên bản PaLM-2 được tinh chỉnh về y tế cũng có thể bị đánh lừa để đưa ra câu trả lời không chính xác.

• Độ chính xác của GPT-4 trên MedQA giảm từ 90,2% xuống 85,4% khi được kiểm tra với các thay đổi MedFuzz.

• GPT-3.5, ban đầu đạt 60,2% trên MedQA, thậm chí còn hoạt động kém hơn trong các điều kiện đối kháng này.

• Nghiên cứu cũng xem xét các lời giải thích do LLM đưa ra khi tạo câu trả lời. Trong nhiều trường hợp, các mô hình không nhận ra rằng lỗi của chúng là do các chi tiết bệnh nhân được sửa đổi thông qua MedFuzz.

• Kết quả nghiên cứu nhấn mạnh nhu cầu cần có các khung đánh giá tốt hơn vượt ra ngoài các bộ đánh giá tĩnh và kiểm tra các mô hình trong các tình huống thực tế động.

• MedFuzz giúp thu hẹp khoảng cách giữa hiệu suất trên bộ đánh giá và khả năng áp dụng trong thế giới thực, cung cấp cách kiểm tra các mô hình đối với các kịch bản phức tạp hơn.

📌 MedFuzz là phương pháp mới đánh giá độ mạnh mẽ của LLM trong hỏi đáp y tế. Kết quả cho thấy ngay cả GPT-4 cũng giảm độ chính xác từ 90,2% xuống 85,4% khi bị nhiễu loạn. Nghiên cứu nhấn mạnh nhu cầu cải thiện phương pháp đánh giá LLM để đảm bảo sử dụng an toàn và hiệu quả trong y tế.

https://www.marktechpost.com/2024/09/13/microsoft-researchers-propose-medfuzz-a-new-ai-method-for-evaluating-the-robustness-of-medical-question-answering-llms-to-adversarial-perturbations/

Nguồn tham khảo

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI ảnh-video-music-âm thanh AI so sánh

Gã khổng lồ công nghệ Trung Quốc Alibaba tiết lộ công cụ video AI mới

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI so sánh

So sánh sâu sắc Copilot Pro GPTs và ChatGPT Plus GPTs

AI prompts

Google đã phát hành hướng dẫn 45 trang về cách viết lệnh tốt nhất cho AI Gemini

Researchers from Johns Hopkins and UC Santa Cruz Unveil D-iGPT: A Groundbreaking Advance in Image-Based AI Learning

AI pháp lý-quản trị-chủ quyền

Hãy coi chừng những chi phí tiềm ẩn của AI trước khi chúng làm phá sản sự đổi mới

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI video AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI GPT Store AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI relations AI quân sự AI an toàn-an ninh-techwar AI việc làm AGI AI doanh nghiệp AI No-Low Code OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI detect-test AI minh bạch AI nhỏ AI hồi sinh AI kiếm tiền AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI marketing-kinh doanh AI smartphone AI robotics-auto-agents AI consumer devices AI ecosystem AI manufacturing AI benchmark Telecom AI thành công-thất bại National AI links Digital Semi-Cloud-DC-Green Cybersecurity Digital Legal HTS STI

SongAI

Tin nóng

MedFuzz: Phương pháp AI mới đánh giá độ mạnh mẽ của các mô hình hỏi đáp y tế trước nhiễu loạn

Thảo luận

Follow Us

Tin phổ biến

TAG