- OpenAI vừa phát hành mô hình o3-mini vào ngày 31/1, sau đó là Gemini 2 Flash của Google
- Bài kiểm tra được thực hiện trên 3 chế độ: chat, composer và agent để so sánh với Claude 3.5 Sonnet và DeepSeek
- Trong bài kiểm tra chat về cấu hình triển khai CircleCI:
+ o3-mini đưa ra hướng dẫn không phù hợp về Cloudflare Pages
+ Sonnet và DeepSeek R1 đề xuất giải pháp chính xác với Cloudflare R2
+ Gemini 2 Flash cung cấp thông tin về cấu hình NextJS nhưng chưa đầy đủ
- Trong bài kiểm tra composer về phân trang và tìm kiếm:
+ o3-mini sử dụng SQL thuần túy thay vì Drizzle ORM an toàn hơn
+ Sonnet và các mô hình khác đều nhận diện đúng schema zod nhưng chưa xử lý tốt inner join
+ DeepSeek V3 lặp lại logic tìm kiếm không cần thiết
- Trong bài kiểm tra agent về luồng onboarding:
+ Chỉ o3-mini và Sonnet 3.5 hỗ trợ chế độ agent trong Cursor
+ o3-mini gặp vấn đề với cấu trúc monorepo và tạo file không đúng vị trí
+ Sonnet tạo hook không sử dụng được với server action trực tiếp
+ DeepSeek và Gemini 2 Flash chưa hỗ trợ chế độ agent
📌 Kết quả bất ngờ khi không có mô hình nào thực sự vượt trội. Claude 3.5 Sonnet vẫn là lựa chọn tốt nhất cho phát triển phần mềm, đặc biệt với các dự án monorepo. o3-mini chưa đạt kỳ vọng và cần chờ phiên bản o3 đầy đủ trong quý tới.
https://levelup.gitconnected.com/o3-mini-gemini-2-flash-sonnet-3-5-and-deepseek-in-cursor-whos-the-best-now-2cf0e68cccfe