- DeepSeek, phòng nghiên cứu AI Trung Quốc, đã phát hành mô hình nguồn mở DeepSeek-R1 vào ngày 20/1, vượt trội hơn các mô hình hàng đầu như OpenAI o1 về khả năng tính toán và suy luận
- Công ty được thành lập từ Fire-Flyer - nhánh nghiên cứu học sâu của quỹ đầu cơ High-Flyer, quỹ đầu tiên tại Trung Quốc huy động được hơn 100 tỷ NDT (khoảng 15 tỷ USD)
- Người sáng lập Liang Wenfeng đã đầu tư 10.000 chip Nvidia và tập trung vào nghiên cứu khoa học cơ bản thay vì lợi nhuận thương mại
- Chiến lược tuyển dụng độc đáo: ưu tiên sinh viên tiến sĩ mới tốt nghiệp từ các trường đại học hàng đầu Trung Quốc như Đại học Bắc Kinh và Đại học Thanh Hoa
- Đối mặt với lệnh kiểm soát xuất khẩu chip của Mỹ, DeepSeek đã phát triển phương pháp đào tạo hiệu quả hơn:
- Tối ưu hóa kiến trúc mô hình
- Phát triển Multi-head Latent Attention (MLA)
- Áp dụng Mixture-of-Experts
- Mô hình mới của DeepSeek chỉ cần 1/10 sức mạnh tính toán so với Llama 3.1 của Meta
- DeepSeek áp dụng phương pháp nguồn mở, khuyến khích cộng tác và đổi mới trong cộng đồng AI toàn cầu
- Thành công của DeepSeek có thể ảnh hưởng đến hiệu quả của chính sách kiểm soát xuất khẩu hiện tại của Mỹ
📌 DeepSeek đã chứng minh khả năng vượt trội với 10.000 chip Nvidia, đội ngũ nghiên cứu trẻ và chiến lược tối ưu hóa hiệu quả. Mô hình DeepSeek-R1 chỉ cần 1/10 sức mạnh tính toán so với đối thủ, thách thức vị thế các gã khổng lồ AI phương Tây.
https://www.wired.com/story/deepseek-china-model-ai/
Khi Liang Wenfeng, nhà sáng lập quỹ đầu cơ định lượng Trung Quốc, chuyển sang nghiên cứu AI, ông mang theo 10.000 chip Nvidia và tập hợp một đội ngũ tài năng trẻ, đầy tham vọng. Hai năm sau, DeepSeek bùng nổ trên bản đồ AI thế giới.
Ngày 20/1, DeepSeek – một phòng thí nghiệm nghiên cứu AI tương đối ít được biết đến tại Trung Quốc – đã ra mắt một mô hình mã nguồn mở, nhanh chóng trở thành tâm điểm tại Silicon Valley. Theo tài liệu do công ty công bố, DeepSeek-R1 vượt qua các mô hình hàng đầu trong ngành như OpenAI o1 trên nhiều tiêu chuẩn đánh giá về toán học và lý luận. Trên nhiều chỉ số quan trọng như năng lực, chi phí và tính mở, DeepSeek đang thực sự thách thức các “ông lớn” AI phương Tây.
Thành công của DeepSeek phản ánh một hệ quả không mong muốn của cuộc chiến công nghệ giữa Mỹ và Trung Quốc. Các biện pháp kiểm soát xuất khẩu của Mỹ đã hạn chế nghiêm trọng khả năng cạnh tranh của các công ty công nghệ Trung Quốc trong cách làm AI kiểu phương Tây – tức là mở rộng quy mô vô hạn bằng cách mua thêm chip và huấn luyện mô hình trong thời gian dài hơn. Do đó, hầu hết các công ty Trung Quốc tập trung vào ứng dụng đầu cuối thay vì xây dựng mô hình của riêng mình. Nhưng với lần ra mắt này, DeepSeek đã chứng minh rằng có một con đường khác để chiến thắng: cải tiến cấu trúc nền tảng của các mô hình AI và sử dụng tài nguyên hạn chế một cách hiệu quả hơn.
“Không giống nhiều công ty AI Trung Quốc phụ thuộc nặng nề vào việc tiếp cận phần cứng tiên tiến, DeepSeek tập trung vào tối ưu hóa tài nguyên thông qua phần mềm,” Marina Zhang, phó giáo sư tại Đại học Công nghệ Sydney, chuyên nghiên cứu về đổi mới tại Trung Quốc, nhận xét. “DeepSeek đã áp dụng phương pháp mã nguồn mở, tập hợp chuyên môn tập thể và thúc đẩy đổi mới hợp tác. Cách tiếp cận này không chỉ giảm thiểu hạn chế về tài nguyên mà còn đẩy nhanh sự phát triển của các công nghệ tiên tiến, giúp DeepSeek vượt lên so với các đối thủ khép kín hơn.”
Và tại sao họ lại bất ngờ phát hành một mô hình hàng đầu ngành, đồng thời cung cấp miễn phí? WIRED đã trò chuyện với các chuyên gia trong ngành AI của Trung Quốc và xem qua các cuộc phỏng vấn chi tiết với nhà sáng lập DeepSeek, Liang Wenfeng, để ghép lại câu chuyện về sự trỗi dậy như vũ bão của công ty này. DeepSeek không phản hồi nhiều yêu cầu phỏng vấn của WIRED.
Ngay cả trong ngành AI của Trung Quốc, DeepSeek cũng là một cái tên khác thường. Công ty bắt đầu như Fire-Flyer, một nhánh nghiên cứu deep learning của High-Flyer – một trong những quỹ đầu cơ định lượng (quant hedge fund) hoạt động tốt nhất tại Trung Quốc. Được thành lập vào năm 2015, High-Flyer nhanh chóng vươn lên hàng đầu, trở thành quỹ đầu cơ định lượng đầu tiên tại Trung Quốc huy động được hơn 100 tỷ RMB (khoảng 15 tỷ USD). (Kể từ năm 2021, con số này đã giảm xuống còn khoảng 8 tỷ USD, dù vậy High-Flyer vẫn là một trong những quỹ đầu cơ định lượng quan trọng nhất của đất nước.)
Trong nhiều năm, High-Flyer đã tích trữ GPU và xây dựng siêu máy tính Fire-Flyer để phân tích dữ liệu tài chính. Đến năm 2023, Liang, người có bằng thạc sĩ về khoa học máy tính, quyết định đổ toàn bộ tài nguyên của quỹ vào một công ty mới mang tên DeepSeek, với tham vọng xây dựng các mô hình tiên tiến nhất và hy vọng phát triển trí tuệ nhân tạo tổng quát (AGI). Điều này giống như việc Jane Street (một quỹ đầu cơ nổi tiếng của Mỹ) chuyển đổi thành một startup AI và chi tiêu toàn bộ tiền mặt vào nghiên cứu khoa học.
Nhưng bằng cách nào đó, điều này đã hiệu quả. “DeepSeek đại diện cho một thế hệ mới các công ty công nghệ Trung Quốc, ưu tiên tiến bộ công nghệ dài hạn hơn là thương mại hóa nhanh chóng,” Zhang nhận định.
Trong một cuộc phỏng vấn với trang công nghệ Trung Quốc 36Kr, Liang cho biết quyết định này được thúc đẩy bởi sự tò mò khoa học chứ không phải mục tiêu lợi nhuận. “Ngay cả khi bạn yêu cầu tôi tìm một lý do thương mại để thành lập DeepSeek, tôi cũng không thể. Vì nó không đáng để làm về mặt thương mại. Nghiên cứu khoa học cơ bản có tỷ suất hoàn vốn đầu tư rất thấp. Khi các nhà đầu tư đầu tiên của OpenAI rót tiền cho họ, chắc chắn họ không nghĩ về lợi nhuận sẽ nhận được. Thay vào đó, họ thực sự muốn thực hiện điều này.”
Hiện nay, DeepSeek là một trong số ít các công ty AI hàng đầu tại Trung Quốc không dựa vào nguồn vốn từ các gã khổng lồ công nghệ như Baidu, Alibaba hay ByteDance.
Theo Liang Wenfeng, khi ông tập hợp đội ngũ nghiên cứu của DeepSeek, mục tiêu không phải là tìm những kỹ sư dày dạn kinh nghiệm để xây dựng sản phẩm hướng tới người tiêu dùng. Thay vào đó, ông tập trung vào các nghiên cứu sinh tiến sĩ từ các trường đại học hàng đầu Trung Quốc, bao gồm Đại học Bắc Kinh và Đại học Thanh Hoa – những người khao khát chứng tỏ bản thân. Theo tờ QBitAI, nhiều người trong số họ đã được công bố trên các tạp chí hàng đầu và giành giải thưởng tại các hội nghị học thuật quốc tế, nhưng lại thiếu kinh nghiệm trong ngành.
“Các vị trí kỹ thuật cốt lõi của chúng tôi hầu hết được lấp đầy bởi những người vừa tốt nghiệp trong năm nay hoặc 1-2 năm trước,” Liang chia sẻ với 36Kr vào năm 2023.
Chiến lược tuyển dụng này đã giúp tạo ra một văn hóa công ty hợp tác, nơi các nhân viên được tự do sử dụng nguồn tài nguyên tính toán dồi dào để theo đuổi các dự án nghiên cứu phi truyền thống. Điều này hoàn toàn khác biệt so với cách vận hành của các công ty internet lớn tại Trung Quốc, nơi các đội nhóm thường phải cạnh tranh khốc liệt để giành tài nguyên. (Ví dụ gần đây: ByteDance đã cáo buộc một thực tập sinh cũ – người từng giành giải thưởng học thuật danh giá – phá hoại công việc của đồng nghiệp để chiếm giữ thêm tài nguyên tính toán cho đội mình.)
Liang giải thích rằng sinh viên có thể phù hợp hơn với các dự án nghiên cứu đòi hỏi đầu tư lớn nhưng lợi nhuận thấp. “Hầu hết mọi người, khi còn trẻ, có thể hoàn toàn cống hiến cho một sứ mệnh mà không cần tính toán thực dụng,” ông nói. Lời kêu gọi của Liang với các ứng viên tiềm năng là DeepSeek được tạo ra để “giải quyết những câu hỏi khó nhất trên thế giới.”
Theo các chuyên gia, việc những nhà nghiên cứu trẻ này hầu như đều được đào tạo tại Trung Quốc càng làm tăng thêm động lực của họ. “Thế hệ trẻ này cũng mang trong mình tinh thần yêu nước, đặc biệt khi họ đối mặt với các hạn chế và điểm nghẽn của Mỹ trong các công nghệ phần cứng và phần mềm quan trọng,” Zhang giải thích. “Quyết tâm vượt qua những rào cản này không chỉ phản ánh tham vọng cá nhân, mà còn thể hiện cam kết lớn hơn trong việc nâng cao vị thế của Trung Quốc như một nhà lãnh đạo đổi mới toàn cầu.”
Vào tháng 10/2022, chính phủ Mỹ bắt đầu áp dụng các biện pháp kiểm soát xuất khẩu nghiêm ngặt, hạn chế mạnh mẽ khả năng tiếp cận các chip tiên tiến như Nvidia H100 của các công ty AI Trung Quốc. Động thái này đã đặt ra một thách thức lớn cho DeepSeek. Công ty khởi đầu với kho dự trữ 10.000 H100, nhưng cần nhiều hơn để cạnh tranh với các công ty như OpenAI và Meta. “Vấn đề chúng tôi đối mặt chưa bao giờ là vốn, mà là kiểm soát xuất khẩu chip tiên tiến,” Liang nói trong một cuộc phỏng vấn thứ hai với 36Kr vào năm 2024.
DeepSeek buộc phải phát triển các phương pháp hiệu quả hơn để huấn luyện mô hình của mình. “Họ đã tối ưu hóa kiến trúc mô hình bằng hàng loạt kỹ thuật kỹ thuật: các phương thức giao tiếp tùy chỉnh giữa các chip, giảm kích thước trường dữ liệu để tiết kiệm bộ nhớ, và sử dụng sáng tạo cách tiếp cận kết hợp mô hình (mix-of-models),” Wendy Chang, một kỹ sư phần mềm chuyển sang làm nhà phân tích chính sách tại Mercator Institute for China Studies, cho biết. “Nhiều trong số những cách tiếp cận này không phải là ý tưởng mới, nhưng việc kết hợp chúng thành công để tạo ra một mô hình tiên tiến là một kỳ công đáng chú ý.”
DeepSeek cũng đạt được tiến bộ lớn trong các thiết kế kỹ thuật như Multi-head Latent Attention (MLA) và Mixture-of-Experts, giúp các mô hình của DeepSeek hiệu quả hơn về chi phí bằng cách giảm nhu cầu sử dụng tài nguyên tính toán để huấn luyện. Theo tổ chức nghiên cứu Epoch AI, mô hình mới nhất của DeepSeek hiệu quả đến mức chỉ cần 1/10 sức mạnh tính toán so với mô hình Llama 3.1 của Meta để huấn luyện.
Việc DeepSeek sẵn sàng chia sẻ các cải tiến của mình với công chúng đã giúp công ty giành được nhiều thiện cảm trong cộng đồng nghiên cứu AI toàn cầu. Đối với nhiều công ty AI Trung Quốc, việc phát triển các mô hình mã nguồn mở là cách duy nhất để đuổi kịp các đối thủ phương Tây, vì điều này thu hút thêm người dùng và cộng tác viên, từ đó giúp các mô hình ngày càng hoàn thiện hơn.
“Họ đã chứng minh rằng có thể xây dựng các mô hình tiên tiến bằng cách sử dụng ít tài nguyên hơn, mặc dù vẫn cần một lượng lớn tiền bạc,” Chang nhận xét. “Các chuẩn mực hiện tại trong việc xây dựng mô hình vẫn còn rất nhiều không gian để tối ưu hóa, và chắc chắn chúng ta sẽ thấy nhiều nỗ lực hơn theo hướng này trong tương lai.”
Tin tức này có thể gây khó khăn cho các biện pháp kiểm soát xuất khẩu hiện tại của Mỹ, vốn tập trung vào việc tạo ra các điểm nghẽn tài nguyên tính toán. “Các ước tính hiện tại về lượng sức mạnh tính toán AI mà Trung Quốc sở hữu, cũng như những gì họ có thể đạt được với nó, có thể sẽ bị đảo lộn,” Chang cho biết.