- DeepSeek, startup Trung Quốc vừa ra mắt mô hình AI nguồn mở R1 vào ngày 20/1/2025, nhanh chóng vượt qua ChatGPT để đứng số 1 trên App Store tại Mỹ
- DeepSeek-R1 đạt thành tích ấn tượng:
- Tỷ lệ chính xác 97,3% trong bài kiểm tra MATH-500, cao hơn 96,4% của OpenAI o1
- Điểm coding đạt 49,2% trên SWE-bench Verified, vượt qua 48,9% của OpenAI o1
- Chi phí phát triển chỉ dưới 6 triệu USD, thấp hơn nhiều so với hàng tỷ USD của các mô hình OpenAI
- Giá API chỉ 0,14 USD/triệu token, rẻ hơn nhiều so với 7,5 USD của OpenAI
- DeepSeek-R1 được huấn luyện dựa trên:
- Dữ liệu tổng hợp từ câu hỏi và câu trả lời
- Dataset của DeepSeek-V3 được tạo ra từ GPT-4o
- Kiến trúc transformer do Google AI phát triển năm 2017
- Những điểm yếu của DeepSeek-R1:
- Không có khả năng phân tích hình ảnh như ChatGPT
- Chỉ có thể trích xuất text từ ảnh qua OCR
- Chưa có tính năng tạo hình ảnh như DALL-E 3
- Thiếu chế độ tương tác bằng giọng nói
- Cần nhiều tài nguyên GPU để phát triển thêm tính năng
- Công ty vừa ra mắt mô hình thị giác Janus Pro, tuyên bố vượt trội hơn DALL-E 3 và Stable Diffusion 3
📌 DeepSeek-R1 tạo đột phá với chi phí chỉ 6 triệu USD và hiệu suất ngang ChatGPT trong xử lý text. Tuy nhiên, vẫn thiếu nhiều tính năng quan trọng như xử lý hình ảnh, tạo ảnh và voice chat. Sự hoảng loạn của thị trường về ảnh hưởng đến công nghệ Mỹ là quá sớm.
https://venturebeat.com/ai/calm-down-deepseek-r1-is-great-but-chatgpts-product-advantage-is-far-from-over/
Bình tĩnh lại: DeepSeek-R1 là một bước tiến lớn, nhưng lợi thế của ChatGPT vẫn còn lâu mới kết thúc
Chỉ mới một tuần trước — ngày 20 tháng 1 năm 2025 — công ty khởi nghiệp AI DeepSeek của Trung Quốc đã tung ra một mô hình AI mã nguồn mở mới có tên R1. Ban đầu, mô hình này có thể bị nhầm lẫn với một trong vô số đối thủ gần như giống hệt nhau xuất hiện ngày càng nhiều kể từ khi OpenAI ra mắt ChatGPT (ban đầu được hỗ trợ bởi mô hình GPT-3.5 của riêng công ty) hơn 2 năm trước.
Tuy nhiên, điều đó nhanh chóng được chứng minh là sai, khi ứng dụng di động của DeepSeek trong thời gian ngắn đã vươn lên dẫn đầu bảng xếp hạng App Store của Apple tại Hoa Kỳ, chiếm vị trí số một của ChatGPT. Điều này gây ra một sự điều chỉnh lớn trên thị trường khi các nhà đầu tư đổ xô bán cổ phiếu của các nhà sản xuất chip máy tính từng được ưa chuộng như Nvidia. Những bộ xử lý đồ họa (GPU) của Nvidia đã có nhu cầu cao để sử dụng trong các siêu cụm máy tính lớn, phục vụ việc đào tạo các mô hình AI mới và triển khai chúng cho khách hàng trên cơ sở liên tục (một phương thức được gọi là “suy luận” - inference).
Nhà đầu tư mạo hiểm Marc Andreessen, phản ánh quan điểm của nhiều người làm trong ngành công nghệ, đã viết trên mạng xã hội X vào tối qua: “DeepSeek R1 là khoảnh khắc Sputnik của AI,” so sánh với sự kiện mang tính bước ngoặt vào tháng 10 năm 1957 khi vệ tinh nhân tạo đầu tiên trong lịch sử, Sputnik 1, được Liên Xô phóng lên, châm ngòi cho cuộc “chạy đua không gian” giữa Liên Xô và Hoa Kỳ nhằm thống trị lĩnh vực du hành vũ trụ.
Việc phóng Sputnik đã thúc đẩy Hoa Kỳ đầu tư mạnh mẽ vào nghiên cứu và phát triển tàu vũ trụ và tên lửa. Mặc dù đây không phải là một sự so sánh hoàn hảo — bởi việc tạo ra DeepSeek-R1 không đòi hỏi đầu tư nặng nề, ngược lại là đằng khác (chi tiết bên dưới) — nhưng nó dường như đánh dấu một bước ngoặt lớn trong thị trường AI toàn cầu. Đây là lần đầu tiên, một sản phẩm AI từ Trung Quốc trở thành sản phẩm phổ biến nhất thế giới.
Nhưng trước khi nhảy lên “chuyến tàu cường điệu DeepSeek,” hãy bình tĩnh và xem xét thực tế. Là người đã sử dụng rộng rãi ChatGPT của OpenAI — trên cả nền tảng web và di động — và theo dõi sát sao các tiến bộ AI, tôi tin rằng mặc dù những thành tựu của DeepSeek-R1 rất đáng chú ý, vẫn chưa phải lúc để gạt bỏ ChatGPT hay các khoản đầu tư vào AI của Hoa Kỳ. Và cần lưu ý, tôi không nhận tiền từ OpenAI để nói điều này — tôi chưa bao giờ nhận tiền từ công ty và cũng không có ý định nhận.
DeepSeek-R1 làm tốt điều gì
DeepSeek-R1 thuộc thế hệ mới của các mô hình “lý luận” lớn, làm nhiều hơn việc chỉ trả lời các câu hỏi của người dùng: mô hình này tự phản ánh về phân tích của chính mình khi tạo phản hồi, cố gắng phát hiện lỗi trước khi cung cấp kết quả cho người dùng.
DeepSeek-R1 ngang bằng hoặc vượt qua mô hình lý luận o1 của OpenAI, được phát hành vào tháng 9 năm 2024 ban đầu chỉ dành cho người dùng đăng ký ChatGPT Plus và Pro, ở một số lĩnh vực.
Chẳng hạn, trên thang đánh giá MATH-500, đo lường khả năng giải các bài toán ở cấp trung học phổ thông, DeepSeek-R1 đạt độ chính xác 97,3%, nhỉnh hơn một chút so với 96,4% của o1 từ OpenAI. Về khả năng lập trình, DeepSeek-R1 đạt 49,2% trên thang đo SWE-bench Verified, vượt qua mức 48,9% của o1 từ OpenAI.
Hơn nữa, về mặt tài chính, DeepSeek-R1 mang lại khoản tiết kiệm chi phí đáng kể. Mô hình này được phát triển với khoản đầu tư dưới 6 triệu USD, chỉ là một phần nhỏ so với chi phí — ước tính lên đến nhiều tỷ USD — liên quan đến việc huấn luyện các mô hình như o1 của OpenAI.
DeepSeek buộc phải trở nên hiệu quả hơn khi phải sử dụng các GPU cũ và khan hiếm, do lệnh hạn chế xuất khẩu công nghệ của Hoa Kỳ sang Trung Quốc. Ngoài ra, DeepSeek cung cấp quyền truy cập API với mức giá 0,14 USD mỗi triệu token, thấp hơn rất nhiều so với mức giá 7,50 USD mỗi triệu token của OpenAI.
Hiệu suất vượt trội, chi phí thấp và khả năng tương đương với các mô hình AI hàng đầu của Hoa Kỳ của DeepSeek-R1 đã khiến Thung lũng Silicon và cộng đồng doanh nghiệp rộng lớn hơn rơi vào tình trạng "hoảng loạn." Điều này dường như đang thay đổi hoàn toàn thị trường AI, địa chính trị, và các nguyên tắc kinh tế liên quan đến việc đào tạo mô hình AI.
Dù những thành tựu của DeepSeek mang tính cách mạng, nhưng sự tán dương hiện tại đang đi quá xa.
Không thể phủ nhận rằng hiệu quả chi phí của DeepSeek-R1 là một thành tựu đáng kể. Nhưng đừng quên rằng DeepSeek cũng dựa vào các đổi mới AI từ Hoa Kỳ, bắt đầu từ kiến trúc transformer được các nhà nghiên cứu Google AI phát triển vào năm 2017 (điểm khởi đầu của cơn sốt mô hình ngôn ngữ lớn - LLM).
DeepSeek-R1 được huấn luyện trên dữ liệu tổng hợp gồm các câu hỏi và câu trả lời. Theo bài báo do các nhà nghiên cứu của DeepSeek công bố, dữ liệu được tinh chỉnh giám sát (supervised fine-tuned) này đến từ “bộ dữ liệu DeepSeek-V3,” mô hình trước đó của công ty (không có khả năng lý luận). Bộ dữ liệu này có nhiều dấu hiệu cho thấy được tạo ra bằng mô hình GPT-4o của OpenAI!
Rõ ràng có thể nói rằng, nếu không có GPT-4o cung cấp dữ liệu này và nếu không có việc OpenAI phát hành mô hình lý luận thương mại đầu tiên o1 vào tháng 9 năm 2024 — điều đã tạo ra phân khúc thị trường này — DeepSeek-R1 gần như chắc chắn sẽ không tồn tại.
Ngoài ra, thành công của OpenAI đã đòi hỏi khối lượng tài nguyên GPU khổng lồ, tạo tiền đề cho những bước đột phá mà DeepSeek chắc chắn đã hưởng lợi. Cơn hoảng loạn hiện tại của các nhà đầu tư về các công ty chip và AI của Hoa Kỳ có vẻ như là sớm và bị thổi phồng.
Khả năng tạo hình ảnh và tầm nhìn của ChatGPT vẫn còn cực kỳ quan trọng.
Trong các bối cảnh công việc và đời sống cá nhân, những tính năng này của ChatGPT rất hữu ích và giá trị — điều mà DeepSeek-R1 hiện tại chưa sở hữu.
Dù DeepSeek-R1 gây ấn tượng với khả năng “lý luận chuỗi suy nghĩ” — một dạng dòng suy nghĩ liên tục trong đó mô hình hiển thị văn bản khi phân tích yêu cầu của người dùng và tìm cách trả lời — và hiệu quả trong các quy trình xử lý văn bản và toán học, nhưng nó thiếu một số tính năng khiến ChatGPT trở thành công cụ mạnh mẽ và đa năng hơn hiện nay.
Trang web chính thức và ứng dụng di động của DeepSeek-R1 cho phép người dùng tải lên ảnh và tệp đính kèm. Tuy nhiên, nó chỉ có thể trích xuất văn bản từ những tài liệu này bằng công nghệ nhận dạng ký tự quang học (OCR), một trong những công nghệ máy tính sớm nhất (ra đời từ năm 1959).
Điều này không thể sánh với khả năng xử lý hình ảnh của ChatGPT. Người dùng có thể tải lên hình ảnh không chứa bất kỳ văn bản nào, và ChatGPT có thể phân tích, mô tả hình ảnh hoặc cung cấp thêm thông tin dựa trên những gì nó nhận thấy và các yêu cầu văn bản của người dùng.
ChatGPT cho phép tải ảnh lên để phân tích nội dung hình ảnh và đưa ra thông tin chi tiết hoặc lời khuyên hữu ích. Ví dụ, khi tôi cần hướng dẫn sửa xe đạp hoặc bảo dưỡng máy điều hòa, khả năng xử lý hình ảnh của ChatGPT đã tỏ ra vô giá. DeepSeek-R1 hiện tại không thể làm được điều này. (Xem hình minh họa so sánh bên dưới).
Sự thiếu vắng chức năng tạo hình ảnh là một hạn chế lớn khác. Là người thường xuyên tạo ảnh bằng AI qua ChatGPT (như hình đầu bài viết này) nhờ mô hình DALL·E 3 của OpenAI, tôi nhận thấy khả năng tạo ra các hình ảnh chi tiết và phong cách với ChatGPT là một bước tiến vượt bậc.
Tính năng này rất cần thiết cho nhiều quy trình sáng tạo và chuyên môn, trong khi DeepSeek chưa thể hiện được chức năng tương tự. Tuy nhiên, hôm nay công ty đã ra mắt một mô hình xử lý hình ảnh mã nguồn mở có tên Janus Pro, mà họ tuyên bố vượt trội hơn DALL·E 3, Stable Diffusion 3 và các mô hình hàng đầu khác trong lĩnh vực tạo hình ảnh theo các đánh giá từ bên thứ ba.
DeepSeek-R1 cũng thiếu chế độ tương tác bằng giọng nói, một tính năng ngày càng quan trọng đối với tính tiện lợi và khả năng tiếp cận. Chế độ giọng nói của ChatGPT cho phép tương tác tự nhiên, phù hợp cho việc sử dụng rảnh tay hoặc hỗ trợ người dùng có nhu cầu tiếp cận đặc biệt.
Đúng vậy, DeepSeek-R1 có thể — và có khả năng sẽ — bổ sung khả năng giọng nói và xử lý hình ảnh trong tương lai. Nhưng việc này không phải là một nhiệm vụ dễ dàng.
Tích hợp khả năng tạo hình ảnh, phân tích hình ảnh và giọng nói đòi hỏi nguồn lực phát triển đáng kể, và trớ trêu thay, nhiều GPU hiệu năng cao mà các nhà đầu tư đang đánh giá thấp lúc này sẽ cần được sử dụng. Việc triển khai các tính năng này một cách hiệu quả và thân thiện với người dùng lại là một thách thức hoàn toàn khác.
Những thành tựu của DeepSeek-R1 rất đáng khen ngợi và đánh dấu một sự chuyển biến đầy hứa hẹn trong thị trường AI toàn cầu. Tuy nhiên, cần giữ sự kỳ vọng ở mức hợp lý. Hiện tại, ChatGPT vẫn là sản phẩm toàn diện và mạnh mẽ hơn, với một loạt tính năng mà DeepSeek chưa thể sánh kịp. Hãy trân trọng những bước tiến này, đồng thời ghi nhận những hạn chế và tầm quan trọng liên tục của đổi mới và đầu tư vào AI từ Hoa Kỳ.