MIT: Cách DeepSeek, startup AI Trung Quốc, phát triển mô hình AI R1 cạnh tranh với ChatGPT o1

- DeepSeek, startup AI Trung Quốc, đã phát triển mô hình lập luận nguồn mở R1 có hiệu suất tương đương hoặc vượt trội so với ChatGPT o1 nhưng chi phí thấp hơn nhiều

- Công ty được thành lập tháng 7/2023 bởi Liang Wenfeng, cựu sinh viên Đại học Zhejiang và là người sáng lập quỹ đầu cơ High-Flyer

- Trước khi lệnh cấm vận chip của Mỹ có hiệu lực, High-Flyer đã tích trữ được khoảng 50.000 chip Nvidia A100

- DeepSeek R1 được các nhà nghiên cứu đánh giá cao về khả năng xử lý các tác vụ lập luận phức tạp, đặc biệt trong toán học và lập trình

- Công ty đã phát hành 6 phiên bản nhỏ hơn của R1 có thể chạy trên laptop, trong đó một phiên bản vượt trội so với o1-mini của OpenAI trong một số tiêu chuẩn đánh giá

- Để tối ưu hiệu suất với nguồn lực hạn chế, DeepSeek đã cải tiến quy trình huấn luyện để giảm tải cho GPU và tập trung vào độ chính xác thay vì chi tiết hóa từng bước logic

- Theo thống kê, Trung Quốc hiện đóng góp 36% trong tổng số 1.328 mô hình ngôn ngữ lớn toàn cầu, đứng thứ hai sau Mỹ

- Các công ty Trung Quốc ngày càng hướng đến nguồn mở, như Alibaba Cloud đã phát hành hơn 100 mô hình AI hỗ trợ 29 ngôn ngữ

- Gần đây, Alibaba Cloud đã hợp tác với 01.AI của Kai-Fu Lee để sáp nhập đội ngũ nghiên cứu và thành lập phòng thí nghiệm mô hình lớn công nghiệp

📌 DeepSeek đã chứng minh khả năng đột phá khi tạo ra mô hình R1 cạnh tranh với ChatGPT o1 dù bị hạn chế chip. Với 50.000 chip A100 tích trữ và chiến lược tối ưu hóa hiệu quả, công ty đã biến thách thức từ lệnh cấm vận thành động lực đổi mới, góp phần đưa Trung Quốc chiếm 36% thị phần mô hình ngôn ngữ lớn toàn cầu.

https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/

#MIT

Cách một mô hình AI hàng đầu của Trung Quốc vượt qua lệnh trừng phạt của Mỹ

Với một mô hình lý luận mới sánh ngang hiệu năng của ChatGPT o1, DeepSeek đã biến các hạn chế thành đổi mới.
Tác giả: Caiwei Chen
Ngày 24/1/2025

Cộng đồng AI đang sôi động với sự xuất hiện của DeepSeek R1, một mô hình lý luận mã nguồn mở mới.

Mô hình này được phát triển bởi startup AI của Trung Quốc, DeepSeek, đơn vị khẳng định rằng R1 có khả năng ngang bằng hoặc thậm chí vượt qua ChatGPT o1 của OpenAI trên nhiều chỉ số quan trọng, nhưng hoạt động với chi phí chỉ bằng một phần nhỏ.

“Đây có thể là một bước đột phá thực sự giúp cân bằng, rất tuyệt vời cho các nhà nghiên cứu và nhà phát triển với nguồn lực hạn chế, đặc biệt là ở các nước thuộc khu vực Nam Bán Cầu,” Hancheng Cao, phó giáo sư về hệ thống thông tin tại Đại học Emory, nhận xét.

Thành công của DeepSeek càng đáng chú ý hơn trong bối cảnh các công ty AI của Trung Quốc phải đối mặt với các hạn chế gia tăng từ phía Mỹ, bao gồm kiểm soát xuất khẩu chip tiên tiến. Tuy nhiên, các bằng chứng ban đầu cho thấy các biện pháp này không đạt được mục tiêu như mong muốn. Thay vì làm suy yếu khả năng AI của Trung Quốc, các lệnh trừng phạt dường như đang thúc đẩy các startup như DeepSeek đổi mới theo hướng ưu tiên hiệu quả, chia sẻ tài nguyên và hợp tác.

Để tạo ra R1, DeepSeek đã phải điều chỉnh lại quy trình huấn luyện của mình nhằm giảm áp lực lên các GPU – loại chip được Nvidia phát hành riêng cho thị trường Trung Quốc, có hiệu năng bị giới hạn ở mức chỉ bằng một nửa so với các sản phẩm hàng đầu, theo Zihan Wang, một cựu nhân viên của DeepSeek hiện đang là nghiên cứu sinh tiến sĩ về khoa học máy tính tại Đại học Northwestern.

DeepSeek R1 đã nhận được nhiều lời khen ngợi từ các nhà nghiên cứu nhờ khả năng giải quyết các nhiệm vụ lý luận phức tạp, đặc biệt trong toán học và lập trình. Mô hình này sử dụng phương pháp “chain of thought” (chuỗi tư duy) tương tự ChatGPT o1, cho phép giải quyết vấn đề bằng cách xử lý từng bước một.

Dimitris Papailiopoulos, nhà nghiên cứu chính tại phòng thí nghiệm AI Frontiers của Microsoft, nói rằng điều làm ông ngạc nhiên nhất về R1 là sự đơn giản trong thiết kế kỹ thuật. “DeepSeek tập trung vào việc tạo ra câu trả lời chính xác thay vì chi tiết hóa mọi bước lập luận, giúp giảm đáng kể thời gian tính toán mà vẫn duy trì hiệu quả cao,” ông nhận xét.

DeepSeek phát hành phiên bản nhỏ gọn của R1, vượt qua thách thức từ lệnh trừng phạt của Mỹ

DeepSeek đã công bố 6 phiên bản nhỏ hơn của mô hình R1, có thể chạy trực tiếp trên máy tính xách tay. Công ty tuyên bố rằng một trong số này thậm chí vượt trội hơn o1-mini của OpenAI trên một số tiêu chuẩn đánh giá. “DeepSeek đã gần như sao chép o1-mini và mở mã nguồn cho nó,” CEO của Perplexity, Aravind Srinivas, viết trên Twitter. DeepSeek không trả lời yêu cầu bình luận từ MIT Technology Review.

Mặc dù nhận được sự chú ý nhờ mô hình R1, DeepSeek vẫn tương đối ít người biết đến. Công ty có trụ sở tại Hàng Châu, Trung Quốc, được thành lập vào tháng 7/2023 bởi Liang Wenfeng, một cựu sinh viên Đại học Chiết Giang với chuyên môn về kỹ thuật thông tin và điện tử. DeepSeek được ươm tạo bởi High-Flyer, một quỹ đầu cơ do Liang sáng lập vào năm 2015. Giống như Sam Altman của OpenAI, Liang đặt mục tiêu phát triển trí tuệ nhân tạo tổng quát (AGI) – một dạng AI có thể thực hiện các nhiệm vụ ngang hoặc vượt qua con người.

Đối phó với lệnh trừng phạt và khai thác tối đa tài nguyên

Huấn luyện các mô hình ngôn ngữ lớn (LLM) đòi hỏi một đội ngũ nghiên cứu viên được đào tạo cao cùng sức mạnh tính toán lớn. Trong một cuộc phỏng vấn với LatePost, Kai-Fu Lee, một doanh nhân kỳ cựu và cựu lãnh đạo Google Trung Quốc, cho biết chỉ “những người chơi hàng đầu” mới thường xuyên xây dựng các mô hình nền tảng như ChatGPT vì chi phí quá lớn. Tình hình càng trở nên khó khăn hơn do Mỹ kiểm soát xuất khẩu chip tiên tiến.

Tuy nhiên, quyết định mạo hiểm vào lĩnh vực AI của High-Flyer lại liên quan trực tiếp đến những hạn chế này. Trước khi các lệnh trừng phạt được dự đoán sẽ xảy ra, Liang đã tích lũy được một kho dự trữ lớn chip Nvidia A100 – loại hiện đã bị cấm xuất khẩu sang Trung Quốc. Theo ước tính của 36Kr, DeepSeek sở hữu hơn 10.000 đơn vị chip này, nhưng Dylan Patel, nhà sáng lập SemiAnalysis, cho rằng con số thực tế có thể lên tới 50.000. Khả năng nhìn nhận tiềm năng của kho chip này trong huấn luyện AI là lý do Liang thành lập DeepSeek, tận dụng chúng kết hợp với các chip công suất thấp hơn để phát triển mô hình.

Cạnh tranh trong hệ sinh thái AI Trung Quốc

Các gã khổng lồ công nghệ như Alibaba, ByteDance và một số startup có nhà đầu tư giàu tiềm lực thống trị lĩnh vực AI tại Trung Quốc, khiến các doanh nghiệp vừa và nhỏ khó cạnh tranh. DeepSeek, một công ty không có kế hoạch huy động vốn, là trường hợp hiếm hoi.

Zihan Wang, một cựu nhân viên của DeepSeek, nói với MIT Technology Review rằng ông từng được cấp quyền truy cập vào tài nguyên tính toán dồi dào và tự do thử nghiệm tại DeepSeek – “một điều xa xỉ mà ít sinh viên mới tốt nghiệp nào có được tại các công ty khác.”

Trong một cuộc phỏng vấn với 36Kr vào tháng 7/2024, Liang thừa nhận rằng ngoài lệnh trừng phạt chip, các công ty Trung Quốc còn phải đối mặt với thách thức từ kỹ thuật AI kém hiệu quả hơn. “Chúng tôi [hầu hết các công ty Trung Quốc] phải tiêu tốn gấp đôi sức mạnh tính toán để đạt được kết quả tương tự. Khi kết hợp với sự kém hiệu quả về dữ liệu, điều này có thể đòi hỏi gấp 4 lần sức mạnh tính toán. Mục tiêu của chúng tôi là liên tục thu hẹp những khoảng cách này,” Liang chia sẻ.

Tuy nhiên, DeepSeek đã tìm ra cách giảm mức tiêu thụ bộ nhớ và tăng tốc độ tính toán mà không làm giảm đáng kể độ chính xác. “Cả nhóm yêu thích việc biến thách thức phần cứng thành cơ hội đổi mới,” Wang nói.

Văn hóa mã nguồn mở và tương lai AI tại Trung Quốc

Không chỉ DeepSeek, các công ty Trung Quốc ngày càng áp dụng nguyên tắc mã nguồn mở. Alibaba Cloud đã phát hành hơn 100 mô hình AI mã nguồn mở mới, hỗ trợ 29 ngôn ngữ và phục vụ nhiều ứng dụng như lập trình và toán học. Tương tự, các startup như Minimax và 01.AI cũng đã mở mã nguồn cho các mô hình của mình.

Theo một báo cáo từ Viện Công nghệ và Thông tin Trung Quốc (CAICT), một tổ chức nghiên cứu trực thuộc nhà nước, số lượng mô hình ngôn ngữ lớn trên toàn thế giới đã đạt 1.328, trong đó 36% có nguồn gốc từ Trung Quốc. Điều này đưa Trung Quốc trở thành quốc gia đóng góp AI lớn thứ hai sau Hoa Kỳ.

“Thế hệ các nhà nghiên cứu trẻ tại Trung Quốc gắn bó chặt chẽ với văn hóa mã nguồn mở vì họ nhận được rất nhiều lợi ích từ đó,” Thomas Qitong Cao, phó giáo sư về chính sách công nghệ tại Đại học Tufts, nhận định.

“Các biện pháp kiểm soát xuất khẩu của Mỹ đã dồn các công ty Trung Quốc vào thế phải tối ưu hóa hơn nhiều với nguồn lực tính toán hạn chế, Matt Sheehan, nhà nghiên cứu AI tại Carnegie Endowment for International Peace, nhận xét. Chúng ta có thể sẽ thấy nhiều sự hợp nhất trong tương lai do thiếu tài nguyên tính toán.”

Dấu hiệu của xu hướng này dường như đã bắt đầu. Hai tuần trước, Alibaba Cloud thông báo hợp tác với startup 01.AI có trụ sở tại Bắc Kinh – được sáng lập bởi Kai-Fu Lee – để hợp nhất đội ngũ nghiên cứu và thành lập một “phòng thí nghiệm mô hình lớn công nghiệp.”

“Việc phân chia lao động trong ngành AI là tự nhiên và tiết kiệm năng lượng,” Cao, giáo sư tại Đại học Tufts, nhận định. “Sự phát triển nhanh chóng của AI đòi hỏi các công ty Trung Quốc phải có sự linh hoạt để tồn tại.”

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo