- Deepseek do nhà quản lý quỹ đầu cơ Liang Wenfeng sáng lập đã công bố mô hình R1 ngày 15/1/2024, chia sẻ chi tiết cách xây dựng mô hình ngôn ngữ lớn với ngân sách hạn chế
- Công ty chỉ sử dụng 2.048 chip Nvidia H800 và 5,6 triệu USD để huấn luyện mô hình có 671 tỷ tham số, một phần nhỏ so với chi phí của OpenAI và Google
- Liang Wenfeng bắt đầu dự án AI vào năm 2021 bằng cách mua hàng nghìn chip đồ họa Nvidia trong khi vẫn điều hành quỹ giao dịch High-Flyer
- Đội ngũ kỹ sư của Deepseek có kinh nghiệm tối ưu hóa hiệu suất chip từ thời làm việc tại quỹ đầu tư, giúp công ty vượt qua hạn chế về chip do lệnh cấm của Mỹ
- Công ty tập trung hoàn toàn vào nghiên cứu, không huy động vốn bên ngoài hay thương mại hóa mô hình
- Deepseek trả lương cao nhất cho kỹ sư AI tại Trung Quốc, cùng với ByteDance
- Đội ngũ nhân sự chủ yếu từ các trường đại học hàng đầu Trung Quốc như Bắc Kinh, Thanh Hoa và Bắc Hàng
- Liang được chọn làm đại diện duy nhất của ngành AI tham dự cuộc họp với Thủ tướng Lý Cường
- Các đối thủ Mỹ đang đầu tư mạnh: OpenAI hợp tác với Softbank trong dự án trị giá 100 tỷ USD, xAI của Elon Musk mở rộng siêu máy tính với hơn 1 triệu GPU
📌 Deepseek chứng minh khả năng cạnh tranh với các gã khổng lồ công nghệ phương Tây bằng cách xây dựng mô hình AI hiệu quả với chi phí thấp (5,6 triệu USD). Tuy nhiên, công ty đang đối mặt thách thức về nguồn lực tính toán khi các đối thủ Mỹ đầu tư hàng trăm tỷ USD vào cơ sở hạ tầng AI.
https://www.ft.com/content/747a7b11-dcba-4aa5-8d25-403f56216d7e
#FT
Công ty khởi nghiệp AI nhỏ DeepSeek của Trung Quốc khiến Silicon Valley bất ngờ
Tỷ phú quỹ đầu cơ Liang Wenfeng phát triển mô hình với ngân sách eo hẹp bất chấp nỗ lực của Mỹ nhằm ngăn chặn tham vọng công nghệ cao của Trung Quốc
Eleanor Olcott tại Bắc Kinh và Zijing Wu tại Hồng Kông hôm qua
Một phòng thí nghiệm trí tuệ nhân tạo nhỏ của Trung Quốc đã làm thế giới kinh ngạc trong tuần này khi công bố công thức kỹ thuật cho mô hình tiên tiến của mình, biến người sáng lập kín tiếng trở thành anh hùng quốc gia, người đã thách thức nỗ lực của Mỹ nhằm ngăn chặn tham vọng công nghệ cao của Trung Quốc.
DeepSeek, được sáng lập bởi nhà quản lý quỹ đầu cơ Liang Wenfeng, đã ra mắt mô hình R1 vào thứ hai, đồng thời giải thích trong một tài liệu chi tiết cách xây dựng một mô hình ngôn ngữ lớn với ngân sách hạn chế, có khả năng tự động học hỏi và cải thiện mà không cần sự can thiệp của con người.
Các công ty Mỹ bao gồm OpenAI và Google DeepMind đã tiên phong trong việc phát triển các mô hình lý luận, một lĩnh vực nghiên cứu AI tương đối mới đang cố gắng làm cho mô hình tương thích với khả năng nhận thức của con người. Vào tháng 12, OpenAI, có trụ sở tại San Francisco, đã phát hành phiên bản đầy đủ của mô hình o1 nhưng giữ bí mật phương pháp của mình.
Việc phát hành R1 của DeepSeek đã làm dấy lên một cuộc tranh luận sôi nổi tại Silicon Valley về việc liệu các công ty AI Mỹ được đầu tư mạnh mẽ hơn, bao gồm Meta và Anthropic, có thể bảo vệ lợi thế kỹ thuật của mình hay không.
Trong khi đó, Liang đã trở thành tâm điểm của niềm tự hào dân tộc ở quê nhà. Trong tuần này, ông là nhà lãnh đạo AI duy nhất được chọn tham dự một cuộc họp công khai với nhà lãnh đạo quyền lực thứ hai của đất nước, Lý Cường. Các doanh nhân được kêu gọi “dồn sức để đột phá các công nghệ cốt lõi then chốt.”
Năm 2021, Liang bắt đầu mua hàng ngàn bộ xử lý đồ họa Nvidia cho dự án phụ về AI của mình trong khi điều hành quỹ giao dịch định lượng High-Flyer. Những người trong ngành xem đây là hành động kỳ lạ của một tỷ phú đang tìm kiếm sở thích mới.
“Khi chúng tôi lần đầu gặp ông ấy, ông là một người trông rất mọt sách với kiểu tóc tệ, nói về việc xây dựng một cụm 10.000 chip để huấn luyện các mô hình của mình. Chúng tôi không coi trọng ông ấy,” một đối tác kinh doanh của Liang cho biết.
“Ông ấy không thể trình bày rõ tầm nhìn của mình ngoài việc nói: Tôi muốn xây cái này, và nó sẽ là bước ngoặt. Chúng tôi nghĩ rằng điều này chỉ có thể từ các tập đoàn khổng lồ như ByteDance và Alibaba,” người này nói thêm.
Tư cách người ngoài ngành AI của Liang lại trở thành một nguồn sức mạnh bất ngờ. Tại High-Flyer, ông đã xây dựng tài sản bằng cách sử dụng AI và thuật toán để xác định các mô hình có thể ảnh hưởng đến giá cổ phiếu. Đội ngũ của ông trở nên thông thạo việc sử dụng chip Nvidia để kiếm tiền từ giao dịch cổ phiếu. Năm 2023, ông ra mắt DeepSeek, công bố ý định phát triển AI đạt đến trình độ con người.
“Liang đã xây dựng một đội ngũ cơ sở hạ tầng xuất sắc, thực sự hiểu cách các con chip hoạt động,” một nhà sáng lập tại công ty LLM đối thủ cho biết. “Ông ấy mang theo những người giỏi nhất của mình từ quỹ đầu cơ đến DeepSeek.”
Sau khi Washington cấm Nvidia xuất khẩu các con chip mạnh nhất của mình sang Trung Quốc, các công ty AI trong nước buộc phải tìm cách sáng tạo để tối đa hóa sức mạnh tính toán của số lượng chip hạn chế trong nước – một vấn đề mà đội ngũ của Liang đã biết cách giải quyết từ trước.
“Kỹ sư của DeepSeek biết cách khai thác tiềm năng của các GPU này, ngay cả khi chúng không phải là loại tối tân nhất,” một nhà nghiên cứu AI thân cận với công ty cho biết.
Người trong ngành cho rằng việc DeepSeek tập trung duy nhất vào nghiên cứu khiến công ty trở thành đối thủ nguy hiểm vì sẵn sàng chia sẻ các đột phá của mình thay vì bảo vệ chúng để kiếm lợi nhuận thương mại. DeepSeek chưa huy động vốn từ các quỹ bên ngoài hay thực hiện các bước quan trọng để thương mại hóa các mô hình của mình.
“DeepSeek được vận hành giống như thời kỳ đầu của DeepMind,” một nhà đầu tư AI tại Bắc Kinh nhận xét. “Họ chỉ tập trung vào nghiên cứu và kỹ thuật.”
Liang, người trực tiếp tham gia vào nghiên cứu của DeepSeek, sử dụng lợi nhuận từ hoạt động giao dịch quỹ đầu cơ để trả lương cao nhất cho những tài năng AI hàng đầu. Cùng với ByteDance, chủ sở hữu TikTok, DeepSeek nổi tiếng là nơi trả mức thù lao cao nhất cho các kỹ sư AI tại Trung Quốc, với đội ngũ nhân viên làm việc tại các văn phòng ở Hàng Châu và Bắc Kinh.
“Văn phòng của DeepSeek giống như một khuôn viên đại học dành cho các nhà nghiên cứu nghiêm túc,” đối tác kinh doanh của Liang chia sẻ. “Đội ngũ tin tưởng vào tầm nhìn của Liang: chứng minh cho thế giới thấy rằng người Trung Quốc có thể sáng tạo và xây dựng mọi thứ từ con số không.”
DeepSeek và High-Flyer đã từ chối trả lời yêu cầu bình luận.
Liang đã định hình DeepSeek là một công ty “thuần túy nội địa”, nơi đội ngũ nhân viên là các tiến sĩ tốt nghiệp từ các trường đại học hàng đầu của Trung Quốc như Bắc Kinh, Thanh Hoa và Hàng Không Vũ Trụ Bắc Kinh, thay vì những chuyên gia từ các tổ chức Mỹ.
Trong một cuộc phỏng vấn với báo chí trong nước năm ngoái, Liang cho biết đội ngũ cốt lõi của mình “không có người nào trở về từ nước ngoài. Tất cả đều là trong nước... Chúng tôi phải tự phát triển nhân tài hàng đầu.” Việc DeepSeek là một công ty LLM thuần túy Trung Quốc đã mang lại cho họ nhiều lời khen ngợi trong nước.
DeepSeek tuyên bố đã sử dụng chỉ 2.048 GPU Nvidia H800 và 5,6 triệu USD để huấn luyện một mô hình với 671 tỷ tham số, chỉ bằng một phần nhỏ so với chi phí mà OpenAI và Google bỏ ra để huấn luyện các mô hình có kích thước tương đương.
Ritwik Gupta, nhà nghiên cứu chính sách AI tại Đại học California, Berkeley, cho rằng các mô hình mới được DeepSeek phát hành gần đây chứng minh rằng “không có bức tường thành nào trong khả năng AI.”
“Người đầu tiên huấn luyện các mô hình phải tiêu tốn rất nhiều nguồn lực để đạt được điều đó,” ông nói. “Nhưng người đi sau có thể đạt được điều đó với chi phí rẻ hơn và nhanh hơn.”
Gupta bổ sung rằng Trung Quốc có một đội ngũ kỹ sư hệ thống lớn hơn nhiều so với Mỹ, những người hiểu cách tối ưu hóa tài nguyên tính toán để huấn luyện và vận hành các mô hình với chi phí thấp hơn.
Người trong ngành nhận xét rằng mặc dù DeepSeek đã đạt được kết quả ấn tượng với nguồn lực hạn chế, nhưng vẫn là một câu hỏi bỏ ngỏ liệu họ có thể tiếp tục cạnh tranh khi ngành công nghiệp phát triển hay không.
Tỷ suất lợi nhuận tại High-Flyer, nhà tài trợ lớn của DeepSeek, đã giảm trong năm 2024, mà một người thân cận với Liang cho rằng là do nhà sáng lập tập trung phần lớn sự chú ý vào DeepSeek.
Các đối thủ Mỹ không đứng yên. Họ đang xây dựng các “cụm” siêu máy tính khổng lồ sử dụng chip thế hệ mới Blackwell của Nvidia, tạo ra sức mạnh tính toán có nguy cơ một lần nữa tạo ra khoảng cách hiệu năng với các đối thủ Trung Quốc.
Tuần này, OpenAI thông báo thành lập một liên doanh với SoftBank của Nhật Bản, được gọi là Stargate, với kế hoạch chi ít nhất 100 tỷ USD để xây dựng cơ sở hạ tầng AI tại Mỹ. xAI của Elon Musk đang mở rộng quy mô siêu máy tính Colossus của mình để chứa hơn 1 triệu GPU nhằm hỗ trợ huấn luyện các mô hình Grok AI.
“DeepSeek sở hữu một trong những cụm tính toán tiên tiến lớn nhất tại Trung Quốc,” đối tác kinh doanh của Liang cho biết. “Hiện tại họ có đủ năng lực, nhưng không kéo dài được lâu nữa.”
How small Chinese AI start-up DeepSeek shocked Silicon Valley
Hedge fund billionaire Liang Wenfeng builds model on tight budget despite US attempt to halt China’s high-tech ambitions
Eleanor Olcott in Beijing and Zijing Wu in Hong Kong yesterday
A small Chinese artificial intelligence lab stunned the world this week by revealing the technical recipe for its cutting-edge model, turning its reclusive leader into a national hero who has defied US attempts to stop China’s high-tech ambitions.
DeepSeek, founded by hedge fund manager Liang Wenfeng, released its R1 model on Monday, explaining in a detailed paper how to build a large language model on a bootstrapped budget that can automatically learn and improve itself without human supervision.
US companies including OpenAI and Google DeepMind pioneered developments in reasoning models, a relatively new field of AI research that is attempting to make models match human cognitive capabilities. In December, the San Francisco-based OpenAI released the full version of its o1 model but kept its methods secret.
DeepSeek’s R1 release sparked a frenzied debate in Silicon Valley about whether better resourced US AI companies, including Meta and Anthropic, can defend their technical edge.
Meanwhile, Liang has become a focal point of national pride at home. This week, he was the only AI leader selected to attend a publicised meeting of entrepreneurs with the country’s second-most powerful leader, Li Qiang. The entrepreneurs were told to “concentrate efforts to break through key core technologies.”
In 2021, Liang started buying thousands of Nvidia graphic processing units for his AI side project while running his quant trading fund High-Flyer. Industry insiders viewed it as the eccentric actions of a billionaire looking for a new hobby.
“When we first met him, he was this very nerdy guy with a terrible hairstyle talking about building a 10,000-chip cluster to train his own models. We didn’t take him seriously,” said one of Liang’s business partners.
“He couldn’t articulate his vision other than saying: I want to build this, and it will be a game change. We thought this was only possible from giants like ByteDance and Alibaba,” the person added.
Liang’s status as an outsider in the AI field was an unexpected source of strength. At High-Flyer, he built a fortune by using AI and algorithms to identify patterns that could affect stock prices. His team became adept at using Nvidia chips to make money trading stocks. In 2023, he launched DeepSeek, announcing his intention to develop human-level AI.
“Liang built an exceptional infrastructure team that really understands how the chips worked,” said one founder at a rival LLM company. “He took his best people with him from the hedge fund to DeepSeek.”
After Washington banned Nvidia from exporting its most powerful chips to China, local AI companies have been forced to find innovative ways to maximise the computing power of a limited number of onshore chips — a problem Liang’s team already knew how to solve.
“DeepSeek’s engineers know how to unlock the potential of these GPUs, even if they are not state of the art,” said one AI researcher close to the company.
Industry insiders say DeepSeek’s singular focus on research makes it a dangerous competitor because it is willing to share its breakthroughs rather than protect them for commercial gains. DeepSeek has not raised money from outside funds or made significant moves to monetise its models.
“DeepSeek is run like the early days of DeepMind,” said one AI investor in Beijing. “It is purely focused on research and engineering.”
Liang, who is personally involved in DeepSeek’s research, uses proceeds from his hedge fund trading to pay top salaries for the best AI talent. Along with TikTok-owner ByteDance, DeepSeek is known for giving the highest remuneration available to AI engineers in China, with staff based in offices in Hangzhou and Beijing.
“DeepSeek’s offices feel like a university campus for serious researchers,” said the business partner. “The team believes in Liang’s vision: to show the world that the Chinese can be creative and build something from zero.”
DeepSeek and High-Flyer did not respond to a request for comment.
Liang has styled DeepSeek as a uniquely “local” company, staffed with PhDs from top Chinese schools, Peking, Tsinghua and Beihang universities rather than experts from US institutions.
In an interview with the domestic press last year, he said his core team “did not have people who returned from overseas. They are all local . . . We have to develop the top talent ourselves”. DeepSeek’s identity as a purely Chinese LLM company has won it plaudits at home.
DeepSeek claimed it used just 2,048 Nvidia H800s and $5.6mn to train a model with 671bn parameters, a fraction of what OpenAI and Google spent to train comparably sized models.
Ritwik Gupta, AI policy researcher at the University of California, Berkeley, said DeepSeek’s recent model releases demonstrate that “there is no moat when it comes to AI capabilities”.
“The first person to train models has to expend lots of resources to get there,” he said. “But the second mover can get there cheaper and more quickly.”
Gupta added that China had a much larger talent pool of systems engineers than the US who understand how to get the best use of computing resources to train and run models more cheaply.
Industry insiders say that even though DeepSeek has shown impressive results with limited resources, it remains an open question whether it can continue to be competitive as the industry evolves.
Returns at High-Flyer, its big backer, lagged behind in 2024, which one person close to Liang blamed on the founder’s attention being mostly focused on DeepSeek.
Its US rivals are not standing still. They are building mega “clusters” of Nvidia’s next-generation Blackwell chips, creating the computing power that threatens to once again create a performance gap with Chinese rivals.
This week, OpenAI said it was creating a joint venture with Japan’s SoftBank, dubbed Stargate, with plans to spend at least $100bn on AI infrastructure in the US. Elon Musk’s xAI is massively expanding its Colossus supercomputer to contain more than 1mn GPUs to help train its Grok AI models.
“DeepSeek has one of the largest advanced computing clusters in China,” said Liang’s business partner. “They have enough capacity for now, but not much longer.”