OpenAI vừa công bố nghiên cứu về khả năng của mô hình ngôn ngữ lớn (LLM) trong lĩnh vực kỹ thuật phần mềm thông qua bộ benchmark SWE-Lancer
3 mô hình được thử nghiệm bao gồm GPT-4o, o1 của OpenAI và Claude-3.5 Sonnet của Anthropic
Nghiên cứu sử dụng 1.488 nhiệm vụ kỹ sư phần mềm từ nền tảng Upwork với tổng giá trị 1 triệu USD
Các nhiệm vụ được chia thành 2 loại:
Nhiệm vụ cá nhân (sửa lỗi, triển khai tính năng): 764 nhiệm vụ, trị giá 414.775 USD
Nhiệm vụ quản lý (lựa chọn đề xuất tốt nhất): tổng giá trị 585.225 USD
Quy trình thử nghiệm:
Sử dụng Docker container không có kết nối internet
Tạo prompt dựa trên tiêu đề và mô tả nhiệm vụ
Phát triển test end-to-end bằng Playwright
Kiểm tra 3 lần bởi kỹ sư chuyên nghiệp
Kết quả chính:
Claude 3.5 Sonnet đạt hiệu suất tốt nhất, kiếm được 208.050 USD
Giải quyết được 26,2% vấn đề cá nhân
Đa số giải pháp vẫn chưa chính xác
Các mô hình thể hiện tốt hơn trong nhiệm vụ quản lý
Hạn chế của LLM:
Có thể xác định vị trí lỗi nhưng không tìm ra nguyên nhân gốc rễ
Hiểu biết hạn chế về mối liên hệ giữa các thành phần
Giải pháp thường không đầy đủ hoặc chưa toàn diện
📌 Nghiên cứu cho thấy LLM vẫn chưa đủ khả năng thay thế kỹ sư phần mềm. Claude 3.5 Sonnet, mô hình hiệu quả nhất, chỉ giải quyết được 26,2% vấn đề và kiếm được 208.050 USD từ tổng số 1 triệu USD giá trị công việc. LLM có thể hỗ trợ sửa lỗi nhưng khó xác định nguyên nhân cốt lõi của vấn đề.
https://venturebeat.com/ai/ai-can-fix-bugs-but-cant-find-them-openais-study-highlights-limits-of-llms-in-software-engineering/