Nghiên cứu của OpenAI: LLM có thể sửa lỗi nhưng không thể tìm ra nguyên nhân gốc rễ

  • OpenAI vừa công bố nghiên cứu về khả năng của mô hình ngôn ngữ lớn (LLM) trong lĩnh vực kỹ thuật phần mềm thông qua bộ benchmark SWE-Lancer

  • 3 mô hình được thử nghiệm bao gồm GPT-4o, o1 của OpenAI và Claude-3.5 Sonnet của Anthropic

  • Nghiên cứu sử dụng 1.488 nhiệm vụ kỹ sư phần mềm từ nền tảng Upwork với tổng giá trị 1 triệu USD

  • Các nhiệm vụ được chia thành 2 loại:

  • Nhiệm vụ cá nhân (sửa lỗi, triển khai tính năng): 764 nhiệm vụ, trị giá 414.775 USD

  • Nhiệm vụ quản lý (lựa chọn đề xuất tốt nhất): tổng giá trị 585.225 USD

  • Quy trình thử nghiệm:

  • Sử dụng Docker container không có kết nối internet

  • Tạo prompt dựa trên tiêu đề và mô tả nhiệm vụ

  • Phát triển test end-to-end bằng Playwright

  • Kiểm tra 3 lần bởi kỹ sư chuyên nghiệp

  • Kết quả chính:

  • Claude 3.5 Sonnet đạt hiệu suất tốt nhất, kiếm được 208.050 USD

  • Giải quyết được 26,2% vấn đề cá nhân

  • Đa số giải pháp vẫn chưa chính xác

  • Các mô hình thể hiện tốt hơn trong nhiệm vụ quản lý

  • Hạn chế của LLM:

  • Có thể xác định vị trí lỗi nhưng không tìm ra nguyên nhân gốc rễ

  • Hiểu biết hạn chế về mối liên hệ giữa các thành phần

  • Giải pháp thường không đầy đủ hoặc chưa toàn diện

📌 Nghiên cứu cho thấy LLM vẫn chưa đủ khả năng thay thế kỹ sư phần mềm. Claude 3.5 Sonnet, mô hình hiệu quả nhất, chỉ giải quyết được 26,2% vấn đề và kiếm được 208.050 USD từ tổng số 1 triệu USD giá trị công việc. LLM có thể hỗ trợ sửa lỗi nhưng khó xác định nguyên nhân cốt lõi của vấn đề.

https://venturebeat.com/ai/ai-can-fix-bugs-but-cant-find-them-openais-study-highlights-limits-of-llms-in-software-engineering/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo