- Liang Wenfeng, 40 tuổi, người sáng lập DeepSeek, sinh năm 1985 trong gia đình giáo viên tại một làng nghèo gần thành phố Zhanjiang
- Với khả năng học tập xuất sắc, Liang đã học toán đại học từ khi còn cấp 2 và sau đó vào Đại học Chiết Giang danh tiếng năm 2002
- Năm 2013, Liang cùng 3 bạn học thành lập nhóm đầu tư Yakebi, sau đó đồng sáng lập quỹ phòng hộ High-Flyer năm 2015
- High-Flyer phát triển nhanh chóng, quản lý tài sản lên tới 100 tỷ nhân dân tệ (14 tỷ USD) vào năm 2021
- Năm 2019, High-Flyer đầu tư 200 triệu nhân dân tệ phát triển nền tảng học sâu "Fire-Flyer 1", sau đó tăng lên 1 tỷ nhân dân tệ năm 2021 với 10.000 GPU A100 của Nvidia
- DeepSeek được tách ra thành công ty độc lập vào năm 2023
- Tháng 5/2024, DeepSeek tung ra chatbot giá rẻ dựa trên mô hình V2, kích động cuộc chiến giá trong ngành AI Trung Quốc
- Mô hình R1 mới của DeepSeek gây chấn động khi chỉ tốn dưới 6 triệu USD để huấn luyện, một phần nhỏ so với các mô hình tương đương
- Sam Altman của OpenAI đánh giá R1 là "ấn tượng" nhưng cũng hứa sẽ tạo ra "những mô hình tốt hơn nhiều"
- Có nghi ngờ về việc DeepSeek đã học từ kết quả của các mô hình Mỹ thông qua quá trình chưng cất "distillation"
📌 DeepSeek của Liang Wenfeng đang thách thức cả Silicon Valley và Bắc Kinh với mô hình AI chỉ tốn 6 triệu USD để phát triển. Công ty cho thấy khả năng đổi mới vượt qua hạn chế chip của Mỹ và không phụ thuộc vào mô hình đổi mới do nhà nước Trung Quốc dẫn dắt.
https://www.economist.com/business/2025/01/29/deepseek-poses-a-challenge-to-beijing-as-much-as-to-silicon-valley
DeepSeek thách thức Bắc Kinh không kém gì Silicon Valley
Câu chuyện về Liang Wenfeng, nhà sáng lập bí ẩn của công ty mô hình AI
Ngày 29 tháng 1 năm 2025 | Thượng Hải
Với việc ra mắt mô hình trí tuệ nhân tạo (AI) mới nhất, DeepSeek – một công ty ít tên tuổi của Trung Quốc – đã phá vỡ nhiều năm chính sách của Mỹ nhằm kìm hãm đổi mới công nghệ tại Trung Quốc. Đồng thời, công ty này cũng làm lung lay định giá của nhiều doanh nghiệp lớn, từ Nvidia – nhà vô địch chip AI của Mỹ – đến Siemens Energy – nhà sản xuất thiết bị điện sử dụng trong các trung tâm dữ liệu (xem bài trước). Bằng cách chứng minh khả năng đổi mới bất chấp các hạn chế xuất khẩu của Mỹ, DeepSeek đã khiến giới quan sát đặt câu hỏi liệu việc tiếp cận hàng loạt chip bán dẫn tiên tiến và thiết bị liên quan có thực sự quan trọng như trước đây đối với việc huấn luyện các mô hình AI hay không.
Người đứng sau tất cả là Liang Wenfeng, nhà sáng lập 40 tuổi của DeepSeek. Chưa rõ ông cảm thấy thế nào trước những xáo trộn trên thị trường toàn cầu mà công ty đã gây ra. Một bạn học cấp ba của ông, khi trả lời truyền thông địa phương gần đây, cho biết Liang đang ở ẩn tại quê nhà để đón Tết Nguyên đán, bắt đầu từ ngày 29 tháng 1. Trên mạng xã hội Trung Quốc, nhiều người trêu chọc ngoại hình gầy gò, xanh xao của ông, nhưng Liang vẫn là một ẩn số với phần lớn công chúng. Những người từng hợp tác với DeepSeek nhận xét ông bị ám ảnh bởi trí tuệ nhân tạo tổng quát (AGI) mang tính người và tác động của nó đối với thế giới. Trong hành trình theo đuổi AGI, nhà sáng lập DeepSeek đang làm đảo lộn nhiều quan niệm về tiến bộ công nghệ ở cả phương Tây lẫn Trung Quốc.
Thông tin công khai về Liang rất ít ỏi. Ông sinh năm 1985 trong một gia đình giáo viên tại một ngôi làng nghèo gần thành phố Trạm Giang, miền nam Trung Quốc, và là một học sinh xuất sắc. Một giáo viên cũ từng kể rằng ông đã nắm vững toán học trình độ đại học ngay từ khi còn học trung học cơ sở. Năm 2002, ông trúng tuyển ngành điện tử - thông tin tại Đại học Chiết Giang, một trường danh tiếng ở thành phố Hàng Châu, miền đông Trung Quốc. Học lên thạc sĩ tại cùng trường, dưới sự hướng dẫn của một nhà khoa học thị giác máy nổi tiếng, đã giúp Liang tiếp cận lĩnh vực AI.
Thời điểm đó, Hàng Châu là một trung tâm công nghệ internet sôi động, nơi quy tụ nhiều công ty đang lên như Alibaba – tập đoàn thương mại điện tử. Liang cùng một số bạn học ở lại thành phố và bắt đầu thử nghiệm các mô hình đầu tư định lượng, không dựa trên các yếu tố cơ bản của doanh nghiệp mà dựa vào việc phân tích khối lượng lớn dữ liệu. Năm 2013, Liang và 3 bạn học thành lập một nhóm đầu tư có tên Yakebi nhằm thương mại hóa các mô hình giao dịch mà họ đã phát triển.
Hai năm sau, Liang đồng sáng lập High-Flyer, một quỹ phòng hộ định lượng phát triển nhanh chóng cùng hàng chục công ty tương tự trong bối cảnh Trung Quốc nới lỏng quy định và thị trường biến động mạnh. Đến năm 2021, High-Flyer tuyên bố quản lý khối tài sản lên đến 100 tỷ nhân dân tệ (14 tỷ USD), dù quy mô của quỹ dường như đã sụt giảm nhanh chóng vào nửa cuối năm đó. Các quỹ định lượng thường xuyên vướng vào căng thẳng với cơ quan quản lý Trung Quốc, do bị cho là hưởng lợi từ những đợt lao dốc của thị trường. Người trong ngành cho biết High-Flyer nổi tiếng là một trong những quỹ định lượng táo bạo nhất, nhiều lần khiến Ủy ban Chứng khoán Trung Quốc phải khó chịu.
DeepSeek ra đời từ nỗ lực cải thiện thuật toán của High-Flyer. Năm 2019, quỹ này đầu tư 200 triệu nhân dân tệ để thành lập một đơn vị riêng phát triển nền tảng học sâu có tên "Fire-Flyer 1". Đến năm 2021, High-Flyer rót thêm 1 tỷ nhân dân tệ vào dự án nhằm triển khai phiên bản thứ hai, được trang bị 10.000 bộ xử lý đồ họa A100 của Nvidia. Điều này khiến High-Flyer trở thành trường hợp đặc biệt: tại thời điểm đó, chỉ có 4 công ty khác ở Trung Quốc sở hữu kho chip mạnh như vậy, và tất cả đều là các gã khổng lồ công nghệ như Alibaba. DeepSeek chính thức trở thành công ty độc lập vào năm 2023.
Công ty gây chấn động thị trường lần đầu tiên vào tháng 5 năm ngoái khi ra mắt một chatbot siêu rẻ dựa trên mô hình V2 của mình. Động thái này đã châm ngòi cho một cuộc chiến giá cả trong ngành AI Trung Quốc, buộc các công ty công nghệ lớn nhất nước này – Alibaba, Baidu, ByteDance và Tencent – phải hạ giá sản phẩm của họ.
Theo lời của Liang, đây không phải là một chiến lược thu hút người dùng. Vào tháng 7, ông nói rằng chi phí đã giảm nhờ DeepSeek thử nghiệm các cấu trúc mô hình mới – điều giúp công ty khác biệt với phần còn lại. Trong khi các công ty AI Trung Quốc khác cũng nghiên cứu mô hình AI, việc bị hạn chế về năng lực tính toán do lệnh cấm vận của Mỹ đã khiến họ tập trung nhiều hơn vào phát triển các ứng dụng thông minh sử dụng công nghệ này. Nhiều công ty AI Trung Quốc đã sử dụng Llama – dòng mô hình ngôn ngữ lớn do Meta, gã khổng lồ mạng xã hội Mỹ, phát triển – làm nền tảng cho các ứng dụng của họ.
Đối với Liang, phát triển mô hình AI sử dụng ít tài nguyên tính toán hơn là một bước thiết yếu trong hành trình theo đuổi mục tiêu dài hạn. “Mục tiêu của chúng tôi là AGI, điều này đòi hỏi phải khám phá các cấu trúc mô hình mới để đạt được năng lực vượt trội trong điều kiện tài nguyên hạn chế,” ông chia sẻ với truyền thông địa phương.
Mô hình R1 mới của DeepSeek, vốn gây chấn động phương Tây, cho thấy công ty đang tiến bộ. DeepSeek tuyên bố chi phí huấn luyện mô hình này dưới 6 triệu USD, chỉ là một phần nhỏ so với các mô hình tương đương từ OpenAI – công ty đứng sau ChatGPT. Sam Altman, CEO của OpenAI, gọi R1 là “ấn tượng” (dù ông cũng cam kết sẽ tạo ra “các mô hình tốt hơn nhiều” và cho rằng “việc có một đối thủ mới thực sự là động lực”).
Dù vậy, DeepSeek cũng vấp phải hoài nghi. Các thử nghiệm ban đầu dường như xác nhận rằng R1 mạnh như công ty tuyên bố. Nhưng một số người đặt câu hỏi liệu DeepSeek có đang hạ thấp số lượng chip cao cấp mà họ sử dụng để phát triển mô hình hay không, dù có ý kiến khác lại cho rằng tuyên bố của công ty là hợp lý. Cũng có suy đoán rằng DeepSeek đã huấn luyện mô hình bằng cách nghiên cứu kết quả của các mô hình Mỹ – một quá trình gọi là “distillation” (chưng cất mô hình). OpenAI cho biết họ có bằng chứng cho thấy DeepSeek đã thực hiện việc này, vi phạm điều khoản dịch vụ.
Tuy nhiên, nếu DeepSeek thực sự hiệu quả như nhiều người tin tưởng, thì đây là một thách thức không chỉ đối với năng lực công nghệ của Mỹ mà còn đối với mô hình đổi mới do nhà nước dẫn dắt của Trung Quốc. Truyền thông nhà nước Trung Quốc nhanh chóng ca ngợi DeepSeek như một tài sản quốc gia trong cuộc đua giành ưu thế AI. Ngày 20 tháng 1, Liang được mời gặp Thủ tướng Trung Quốc Lý Cường cùng một số doanh nhân khác.
Tuy nhiên, như Zhang Zhiwei của Pinpoint Asset Management – một công ty đầu tư – chỉ ra, thành tựu của DeepSeek không xuất phát từ một trong vô số viện nghiên cứu được chính phủ Trung Quốc hậu thuẫn hay các doanh nghiệp nhà nước. Liang dường như sở hữu phần lớn cổ phần của DeepSeek và tránh xa ngành công nghiệp đầu tư mạo hiểm do nhà nước kiểm soát.
Liang nhìn nhận vai trò của Trung Quốc trong 30 năm qua là một “người đi sau” về công nghệ, xây dựng dựa trên nền tảng do phương Tây phát triển. Khoảng cách giữa Mỹ và Trung Quốc, theo ông, nằm ở “sáng tạo và bắt chước.” Trong một cuộc phỏng vấn với truyền thông địa phương vào tháng 7, Liang cho rằng thành công của Nvidia không chỉ dựa vào hiệu năng của riêng họ mà còn nhờ sự hợp tác công nghệ giữa các công ty phương Tây. Theo ông, nỗ lực bắt chước sức mạnh tính toán của phương Tây của Trung Quốc đã không đạt kết quả vì thiếu kiểu hợp tác này, bất chấp việc nhà nước đã đổ vốn khổng lồ để xây dựng nó. DeepSeek có thể không chỉ là hồi chuông cảnh tỉnh cho phương Tây mà còn cho cả các nhà lãnh đạo ở Bắc Kinh. ■
DeepSeek poses a challenge to Beijing as much as to Silicon Valley
The story of Liang Wenfeng, the model-maker’s mysterious founder
Jan 29th 2025|Shanghai
With the release of its latest artificial-intelligence (AI) model, DeepSeek, an obscure Chinese firm, has laid waste to several years of American policy meant to hold back Chinese innovation—and, in the process, blown a hole in the valuations of companies from Nvidia, America’s AI chip champion, to Siemens Energy, a manufacturer of electrical equipment used in data centres (see previous article). In demonstrating its ability to innovate around American export restrictions, DeepSeek has raised doubts as to whether access to piles of cutting-edge semiconductors and related equipment is as important as previously thought when it comes to training AI models.
The man at the centre of it all is Liang Wenfeng, DeepSeek’s 40-year-old founder. It is unclear how much he has relished the global market turmoil he has unleashed. A high-school classmate who recently spoke to local media said Mr Liang is hiding out in his home town for the lunar new year, which started on January 29th. Playfully mocked on Chinese social media for his skinny, pale appearance, Mr Liang remains a mystery to most people. Those who have had professional dealings with DeepSeek say he is obsessed with human-like artificial general intelligence (AGI) and the impact it could have on the world. In his pursuit of it, DeepSeek’s founder is upending ideas about technological progress both in the West and China.
Public information on Mr Liang is scant. Born into a family of teachers in an impoverished village near the southern city of Zhanjiang in 1985, he was a gifted student. A former instructor claimed he mastered university-level maths in middle school. In 2002 he gained entry into an electronic-information degree at Zhejiang University, a prestigious school in the eastern Chinese city of Hangzhou. A master’s degree at the same university, under a well-known machine-vision scientist, exposed him to the field of AI.
At the time, Hangzhou was a bustling hub for internet technology and home to rising groups such as Alibaba, an e-commerce firm. Mr Liang and several classmates remained in the city and began experimenting with quantitative investing models, which do not rely on company fundamentals but on crunching reams of data. In 2013 Mr Liang and three classmates launched an investment group called Yakebi in an attempt to monetise the trading models they had built.
Two years later Mr Liang co-founded High-Flyer, a quantitative hedge-fund that grew rapidly alongside dozens of similar firms during a period of deregulation and market volatility in China. In 2021 it claimed to be managing as much as 100bn yuan ($14bn), though it appears to have rapidly shrunk in size in the latter half of that year. Quant funds have routinely tussled with Chinese regulators, who view them as profiting from market routs. Industry insiders say High-Flyer made a name for itself as one of the most aggressive quant funds, regularly drawing the ire of securities regulators.
DeepSeek’s origins lie in an effort to improve High-Flyer’s algorithms. In 2019 the group invested 200m yuan to set up a separate unit to develop its own deep-learning platform, called “Fire-Flyer 1”. The fund poured 1bn yuan into the effort in 2021 in order to launch a second iteration armed with 10,000 of Nvidia’s A100 graphics processing units. This made High-Flyer an outlier: at the time just four other firms in China held such large arsenals of powerful chips, all of which were tech giants such as Alibaba. DeepSeek was made a standalone company in 2023.
It delivered its first jolt to the market in May last year, when it released an ultra-cheap chatbot based on its V2 model. That kicked off a price war in China’s AI industry, forcing the country’s biggest tech firms—Alibaba, Baidu, ByteDance and Tencent—to lower their own prices.
By Mr Liang’s own telling, this was not a ploy to capture more users. In July he said costs had fallen as DeepSeek explored new model structures, something that set it apart from others. Although rival Chinese AI groups have been conducting research into models, their disadvantage in computing power, owing to American export restrictions, has led them to focus more on creating clever applications that use the technology. Many Chinese AI groups have used Llama, the family of large language models developed by Meta, America’s social-media titan, as a basis for their applications.
Deep thoughts
For Mr Liang, developing models using less computing power is an essential step in pursuit of his longer-term objective. “Our goal is AGI, which requires us to explore new model structures to achieve superior capabilities within limited resources,” he has told local media.
DeepSeek’s new R1 model, which has shocked the West, suggests it is making progress. The company says it cost less than $6m to train, a tiny fraction of comparable models from the likes of OpenAI, maker of ChatGPT. Sam Altman, OpenAI’s boss, has called R1 “impressive” (though he has also promised to produce “much better models”, adding that it is “legit invigorating to have a new competitor”).
DeepSeek certainly has its doubters. Early testing seems to confirm that R1 is as powerful as its maker says it is. But some have questioned whether the firm has underplayed the number of high-end chips it used to develop the model, even if others argue its claims are plausible. There is also speculation that DeepSeek has trained its models by studying the results of American ones, a process known as “distillation”. OpenAI has said it has evidence that points to DeepSeek distilling its models, in violation of its terms of service.
If, however, DeepSeek’s is truly efficient, as many believe it is, then it is an affront both to American tech prowess and China’s state-led innovation model. Chinese state media has been quick to champion DeepSeek as a national asset in the country’s fight for AI supremacy. Mr Liang was invited to meet with Li Qiang, China’s premier, on January 20th, alongside a handful of other entrepreneurs.
Yet as Zhang Zhiwei of Pinpoint Asset Management, an investment firm, points out, DeepSeek’s achievements did not emerge from one of China’s myriad government-backed research institutes or state-controlled companies. Mr Liang appears to control most of the shares in DeepSeek, and has steered clear of China’s state-dominated venture-capital industry.
Mr Liang views China’s role over the past 30 years as that of a technological “follower”, building on foundations developed in the West. The gap between America and China is between “originality and imitation”, Mr Liang said in an interview with local media in July. Nvidia’s success, he argues, has not relied solely on its own performance, but also on technological collaboration among Western companies. China’s efforts to imitate Western computing power have fallen short, in his view, because it lacks this type of collaboration, despite a capital-intensive state-led effort to create one. DeepSeek may not be a wake-up call only for the West, but also for China’s leaders in Beijing. ■