- AutoCoder là mô hình ngôn ngữ lớn đầu tiên vượt qua GPT-4 Turbo (04/2024) và GPT-4o trong bài kiểm tra Human Eval Benchmark với tỷ lệ pass@1 90,9% so với 90,2%.
- Vấn đề chính trong tạo mã là tạo ra các bộ dữ liệu quy mô lớn, chất lượng cao để huấn luyện các mô hình ngôn ngữ. Các phương pháp truyền thống tốn kém và mất nhiều thời gian.
- Các phương pháp hiện tại như SELF-INSTRUCT, EVOL-INSTRUCT và OSS-INSTRUCT sử dụng các mô hình giáo viên mạnh để tạo ra các hướng dẫn mã hóa tổng hợp hoặc lấy các vấn đề từ các đoạn mã nguồn mở. Tuy nhiên, chúng bị giới hạn bởi sự phụ thuộc vào các mô hình giáo viên.
- Các nhà nghiên cứu từ Đại học Connecticut và AIGCode giới thiệu phương pháp mới gọi là AIEV-INSTRUCT. Phương pháp này tạo ra một bộ dữ liệu mã chất lượng cao thông qua quá trình tương tác giữa hai tác nhân - người hỏi và lập trình viên.
- AIEV-INSTRUCT hoạt động trong hai giai đoạn: Giai đoạn Giảng dạy và Giai đoạn Tự học. Ban đầu, nó sử dụng một mô hình độc quyền để tạo và xác thực các hướng dẫn mã. Trong Giai đoạn Tự học, mô hình sinh viên tự động tạo và xác thực mã.
- AutoCoder đạt tỷ lệ vượt qua 90,9% trong bài kiểm tra HumanEval, vượt qua các mô hình hàng đầu như GPT-4 Turbo với 90,2%. AutoCoder thể hiện khả năng vượt trội trong việc giải thích mã, cho phép cài đặt các gói bên ngoài.
- AutoCoder được thử nghiệm trên nhiều bộ dữ liệu như HumanEval+, MBPP, MBPP+, MultiPL-E và DS-1000. Nó xếp thứ nhất trong số các mô hình ngôn ngữ trong Bài kiểm tra HumanEval Base và đạt thứ hạng top 5 trong các bài kiểm tra khác.
- AutoCoder-S, một biến thể nhỏ hơn với 6,7 tỷ tham số, cho thấy kết quả ấn tượng với tỷ lệ vượt qua 78,7% trên HumanEval và 79,4% trên MBPP.
📌 AutoCoder với phương pháp AIEV-INSTRUCT đạt hiệu suất vượt trội, vượt qua các mô hình hiện có trong các bài kiểm tra quan trọng. Đổi mới này nâng cao hiệu quả của các tác vụ tạo mã và cung cấp một cách tiếp cận có thể mở rộng để cải thiện các mô hình ngôn ngữ trong các ứng dụng lập trình, giúp các công cụ tạo mã chất lượng cao trở nên dễ tiếp cận và hiệu quả hơn cho các nhà phát triển trên toàn thế giới.
https://www.marktechpost.com/2024/05/31/autocoder-the-first-large-language-model-to-surpass-gpt-4-turbo-april-2024-and-gpt-4o-in-pass1-on-the-human-eval-benchmark-test-90-9-vs-90-2/