- Deepseek, startup AI Trung Quốc đã phát triển mô hình nguồn mở DeepSeek-R1 có hiệu năng ngang OpenAI nhưng chi phí API thấp hơn 30 lần, chỉ với ngân sách 6 triệu USD
- Mô hình V2 của Deepseek đã kích hoạt cuộc chiến giá trong ngành, buộc ByteDance, Alibaba, Baidu và Tencent phải hạ giá theo
- Liang Wenfeng, người sáng lập Deepseek khẳng định công ty tập trung vào nghiên cứu đột phá thay vì thương mại hóa nhanh chóng như các công ty Trung Quốc khác
- Deepseek phát triển mô hình V2 hoàn toàn bằng nhân tài trong nước, chủ yếu từ sinh viên tốt nghiệp và nghiên cứu sinh các trường đại học hàng đầu
- Công ty áp dụng cấu trúc tổ chức phẳng, cho phép nhân viên tự do tiếp cận tài nguyên máy tính và hợp tác không cần phê duyệt
3 hướng nghiên cứu chính của Deepseek:
- Toán học và mã nguồn làm nền tảng kiểm thử cho AGI
- Multimodal để AI tương tác với thế giới thực
- Ngôn ngữ tự nhiên làm nền tảng trí tuệ giống con người
- Deepseek cam kết duy trì mô hình nguồn mở, khác với OpenAI và Mistral đã chuyển sang mô hình đóng
- Thách thức lớn nhất của công ty không phải là vốn mà là lệnh cấm vận chip hiệu năng cao
📌 Startup Deepseek của Trung Quốc đã chứng minh khả năng cạnh tranh với các gã khổng lồ công nghệ phương Tây bằng việc phát triển mô hình AI hiệu năng cao với chi phí chỉ 6 triệu USD, thấp hơn 30 lần so với đối thủ. Công ty duy trì cam kết nguồn mở và tập trung vào nghiên cứu đột phá thay vì thương mại hóa nhanh chóng.
https://thechinaacademy.org/interview-with-deepseek-founder-were-done-following-its-time-to-lead/
DeepSeek-R1 đang làm rung chuyển Thung lũng Silicon. Nhà sáng lập Liang Wenfeng: "Chúng tôi không còn đi theo nữa. Đã đến lúc dẫn đầu."
Ngày 27 tháng 01 năm 2025
Thung lũng Silicon đang chao đảo. Một sự thay đổi địa chấn trong cán cân quyền lực AI đang diễn ra, và mọi con mắt đều đổ dồn về Trung Quốc. Tháng 01 năm 2025, DeepSeek-R1—một mô hình suy luận mã nguồn mở của công ty AI Trung Quốc DeepSeek—đã gây chấn động thế giới công nghệ khi đạt hiệu suất ngang ngửa với các mô hình hàng đầu của OpenAI, nhưng với chi phí API chỉ bằng 1/30, đồng thời vẫn duy trì tính mở hoàn toàn.
Với chỉ 6 triệu USD, Trung Quốc đã xây dựng một trong những mô hình AI tiên tiến nhất thế giới, bỏ xa hàng tỷ USD mà Meta, Google và Microsoft đã chi tiêu. Ngay lập tức, người dùng toàn cầu—đặc biệt là cá nhân và doanh nghiệp vừa và nhỏ—đã đổ xô sử dụng DeepSeek-R1, thậm chí huấn luyện lại mô hình này làm nền tảng của riêng họ.
Cuộc cách mạng do phương Đông dẫn dắt này đang buộc thế giới phải suy ngẫm: Điều gì sẽ xảy ra nếu tương lai của AI không còn được định hình tại Thung lũng Silicon?
Dưới đây là bản dịch cuộc phỏng vấn được thực hiện vào tháng 07 năm 2024 giữa Liang Wenfeng, nhà sáng lập DeepSeek, và tờ báo Trung Quốc An Yong. Cuộc phỏng vấn diễn ra ngay sau khi mô hình mã nguồn mở DeepSeek V2 đưa công ty lên hàng ngũ các tên tuổi AI hàng đầu, tiết lộ cách một startup Trung Quốc dám vượt mặt các gã khổng lồ ngành và viết lại quy tắc đổi mới.
An Yong (phóng viên): Sau khi DeepSeek V2 ra mắt, ngay lập tức nó đã châm ngòi cho một cuộc chiến giá cả khốc liệt trong ngành AI mô hình lớn. Một số người nói rằng ông là kẻ phá vỡ thị trường.
Liang Wenfeng (nhà sáng lập DeepSeek): Chúng tôi chưa bao giờ có ý định trở thành một kẻ phá vỡ thị trường; điều đó chỉ tình cờ xảy ra mà thôi.
An Yong: Ông có bất ngờ với kết quả này không?
Liang Wenfeng: Rất bất ngờ. Chúng tôi không nghĩ rằng giá cả lại là một vấn đề nhạy cảm đến vậy. Chúng tôi chỉ đơn giản làm theo tiến độ của mình, tính toán chi phí và đặt giá dựa trên đó. Nguyên tắc của chúng tôi là không bán lỗ, nhưng cũng không đặt mức lợi nhuận quá cao. Giá hiện tại vẫn đảm bảo một biên lợi nhuận khiêm tốn trên chi phí của chúng tôi.
An Yong: Năm ngày sau, Zhipu AI cũng điều chỉnh giá, và ngay sau đó là ByteDance, Alibaba, Baidu và Tencent.
Liang Wenfeng: Zhipu AI giảm giá cho một sản phẩm cấp thấp, nhưng các mô hình chủ lực của họ vẫn rất đắt. ByteDance là công ty đầu tiên thực sự đưa giá mô hình chủ lực xuống ngang bằng chúng tôi, điều này tạo áp lực buộc những công ty khác phải theo kịp. Vì các tập đoàn lớn có chi phí mô hình cao hơn nhiều so với chúng tôi, nên ban đầu tôi không nghĩ họ sẽ chấp nhận hoạt động với mức giá lỗ. Kết cục là nó đã tái hiện lại mô hình trợ giá của thời kỳ internet, nơi các công ty cạnh tranh khốc liệt bằng việc giảm giá để thu hút người dùng.
An Yong: Từ góc nhìn bên ngoài, việc cắt giảm giá có vẻ giống một chiến lược giành thị phần—một mô hình cạnh tranh điển hình của kỷ nguyên internet.
Liang Wenfeng: Giành người dùng không phải mục tiêu chính của chúng tôi. Chúng tôi giảm giá vì hai lý do:
Thứ nhất, trong quá trình nghiên cứu cấu trúc mô hình thế hệ tiếp theo, chi phí của chúng tôi đã giảm.
Thứ hai, chúng tôi tin rằng AI và dịch vụ API phải có giá cả hợp lý và tiếp cận được mọi người.
An Yong: Trước đây, hầu hết các công ty Trung Quốc chỉ sao chép cấu trúc mô hình Llama để phát triển ứng dụng. Vì sao DeepSeek lại chọn tập trung vào cấu trúc mô hình thay vì đi theo hướng đó?
Liang Wenfeng: Nếu mục tiêu chỉ là phát triển ứng dụng, thì việc áp dụng cấu trúc của Llama để nhanh chóng ra mắt sản phẩm là một lựa chọn hợp lý. Nhưng mục tiêu của chúng tôi là AGI (trí tuệ nhân tạo tổng quát), điều này đòi hỏi phải khám phá những cấu trúc mô hình mới để đạt hiệu suất vượt trội với tài nguyên hạn chế. Đây là nghiên cứu nền tảng để mở rộng quy mô. Ngoài kiến trúc, chúng tôi còn nghiên cứu về quản lý dữ liệu và tư duy giống con người—tất cả đều được phản ánh trong các mô hình của chúng tôi.
Hơn nữa, hiệu suất huấn luyện và chi phí suy luận của Llama đang tụt hậu khoảng hai thế hệ so với các tiêu chuẩn tiên tiến toàn cầu.
An Yong: Vậy đâu là nguyên nhân dẫn đến khoảng cách thế hệ này?
Liang Wenfeng: Trước hết, có một khoảng cách về hiệu suất huấn luyện. Chúng tôi ước tính rằng ngay cả những mô hình tốt nhất của Trung Quốc hiện nay vẫn cần gấp đôi sức mạnh tính toán để có thể đạt hiệu suất tương đương với các mô hình hàng đầu thế giới, do sự khác biệt về cấu trúc và quy trình huấn luyện.
Ngoài ra, hiệu quả dữ liệu chỉ bằng một nửa, có nghĩa là để đạt được kết quả tương đương, chúng tôi cần lượng dữ liệu và tài nguyên tính toán gấp đôi. Khi kết hợp cả hai yếu tố này, tổng tài nguyên cần thiết gấp bốn lần. Mục tiêu của chúng tôi là liên tục thu hẹp những khoảng cách này.
Liang Wenfeng: Bởi vì chúng tôi tin rằng điều quan trọng nhất lúc này là tham gia vào quá trình đổi mới công nghệ toàn cầu.
Trong nhiều năm, các công ty Trung Quốc đã quen với việc tận dụng những đổi mới công nghệ được phát triển ở nước ngoài, sau đó kiếm tiền từ chúng thông qua các ứng dụng thương mại. Nhưng cách tiếp cận này không thể bền vững mãi được.
Lần này, mục tiêu của chúng tôi không phải là lợi nhuận nhanh chóng, mà là thúc đẩy giới hạn công nghệ để phát triển hệ sinh thái AI.
Liang Wenfeng: Chúng tôi tin rằng với sự phát triển kinh tế, Trung Quốc phải dần chuyển từ vai trò người hưởng lợi sang người đóng góp, thay vì mãi đi theo sau những đổi mới của người khác.
Trong 30 năm của cuộc cách mạng công nghệ thông tin, chúng tôi gần như không tham gia vào đổi mới công nghệ cốt lõi.
Chúng tôi đã quen với việc chờ định luật Moore "rơi từ trên trời xuống"—chỉ cần đợi 18 tháng là có phần cứng và phần mềm mạnh hơn. Định luật Scaling cũng được nhìn nhận theo cách tương tự. Nhưng thực tế, những tiến bộ này là kết quả của nhiều thế hệ làm việc không ngừng nghỉ từ cộng đồng công nghệ phương Tây.
Vì chúng tôi chưa từng tham gia sâu vào quá trình này, nên dần dần chúng tôi quên mất tầm quan trọng của nó.
Liang Wenfeng: Trong số những đổi mới diễn ra hàng ngày ở Mỹ, DeepSeek V2 thực ra không quá đặc biệt. Điều khiến họ ngạc nhiên là một công ty Trung Quốc lại có thể tham gia vào cuộc chơi như một nhà đổi mới thực thụ, thay vì chỉ là người đi theo như trước đây.
Liang Wenfeng: Đổi mới chắc chắn là tốn kém. Trước đây, việc chấp nhận công nghệ sẵn có là do giai đoạn phát triển của Trung Quốc khi đó chưa đủ mạnh.
Nhưng hiện nay, Trung Quốc đã có nền kinh tế quy mô lớn, và các tập đoàn như ByteDance hay Tencent có lợi nhuận thuộc hàng top toàn cầu.
Điều chúng tôi thiếu không phải là vốn, mà là sự tự tin và khả năng tổ chức những tài năng xuất sắc để đổi mới hiệu quả.
An Yong: Vì sao các công ty Trung Quốc, ngay cả những tập đoàn lớn có nguồn vốn dồi dào, vẫn ưu tiên thương mại hóa nhanh hơn là đầu tư vào đổi mới?
Liang Wenfeng: Trong suốt 30 năm qua, chúng ta đã đặt lợi nhuận lên trên đổi mới. Nhưng đổi mới không đơn thuần là một chiến lược kinh doanh—nó đòi hỏi sự tò mò và khát vọng sáng tạo.
Chúng ta bị trói buộc bởi những thói quen cũ, nhưng đây chỉ là một giai đoạn chuyển đổi.
An Yong: Nhưng DeepSeek vẫn là một doanh nghiệp, không phải phòng thí nghiệm nghiên cứu phi lợi nhuận. Nếu ông đổi mới và mã nguồn mở những đột phá của mình—như kiến trúc MLA sắp ra mắt vào tháng 5—thì các đối thủ sẽ nhanh chóng sao chép. Lợi thế cạnh tranh (moat) của ông nằm ở đâu?
Liang Wenfeng: Trong công nghệ mang tính đột phá, rào cản cạnh tranh khép kín chỉ tồn tại trong thời gian ngắn. Ngay cả mô hình đóng của OpenAI cũng không thể ngăn cản các công ty khác bắt kịp.
Do đó, moat thực sự của chúng tôi nằm ở sự phát triển của đội ngũ—tích lũy kiến thức, nuôi dưỡng văn hóa đổi mới. Việc mở mã nguồn và công bố nghiên cứu không gây tổn thất đáng kể. Đối với các nhà công nghệ, việc được người khác noi theo là một niềm vinh dự. Mã nguồn mở không chỉ là một chiến lược kinh doanh, mà còn là một văn hóa. Đóng góp cho cộng đồng là một sự vinh danh, đồng thời cũng thu hút nhân tài.
An Yong: Ông nghĩ gì về những quan điểm mang tính thị trường, như của Zhu Xiaohu (nhà đầu tư nổi tiếng, người ủng hộ việc ưu tiên thương mại hóa ngay lập tức thay vì nghiên cứu AI nền tảng, và bác bỏ AGI là viển vông)?
Liang Wenfeng: Quan điểm của Zhu phù hợp với các dự án tìm kiếm lợi nhuận ngắn hạn, nhưng những công ty Mỹ có lợi nhuận bền vững nhất đều là các tập đoàn công nghệ được xây dựng dựa trên R&D dài hạn.
Liang Wenfeng: Chúng tôi tin rằng AI Trung Quốc không thể mãi mãi là kẻ đi sau.
Chúng ta thường nói rằng có một khoảng cách 1-2 năm giữa AI Trung Quốc và Mỹ, nhưng khoảng cách thực sự không nằm ở thời gian, mà ở sự sáng tạo so với mô phỏng. Nếu điều này không thay đổi, Trung Quốc sẽ mãi là người theo sau. Một số thử nghiệm là không thể tránh khỏi.
Sự thống trị của NVIDIA không chỉ đến từ nỗ lực cá nhân của họ—mà còn là kết quả của hệ sinh thái công nghệ phương Tây, nơi các tập đoàn cùng hợp tác vạch ra lộ trình cho thế hệ công nghệ tiếp theo. Trung Quốc cần xây dựng những hệ sinh thái tương tự.
Hiện tại, nhiều chip nội địa thất bại vì thiếu cộng đồng công nghệ hỗ trợ và chỉ dựa vào những hiểu biết gián tiếp từ phương Tây. Nếu không có ai bước ra khai phá vùng đất mới, Trung Quốc sẽ luôn đi sau.
An Yong: Hiện tại, DeepSeek mang một tinh thần lý tưởng giống như OpenAI trong giai đoạn đầu, và ông đang duy trì mã nguồn mở. Liệu trong tương lai, DeepSeek có chuyển sang mô hình đóng như OpenAI hay Mistral đã làm không?
Liang Wenfeng: Chúng tôi sẽ không đóng mã nguồn. Chúng tôi tin rằng việc xây dựng một hệ sinh thái công nghệ vững chắc quan trọng hơn.
An Yong: Có tin đồn rằng Huanfang【1】 đang có kế hoạch tách DeepSeek để IPO. Các startup AI ở Thung lũng Silicon cuối cùng đều liên kết với những gã khổng lồ công nghệ. DeepSeek có đi theo con đường đó không?
Liang Wenfeng: Chúng tôi không có kế hoạch huy động vốn trong ngắn hạn.
Vấn đề của chúng tôi chưa bao giờ là tiền, mà là lệnh cấm vận đối với chip cao cấp.
An Yong: Nhiều người cho rằng để đạt được AGI, cần liên minh mạnh mẽ và sự minh bạch, thay vì một mô hình phát triển khép kín như ngành đầu tư định lượng (quantitative investing). Ông có đồng ý không?
Liang Wenfeng: Đầu tư nhiều hơn không có nghĩa là đổi mới nhiều hơn.
Nếu điều đó là đúng, thì các tập đoàn công nghệ lớn đã độc quyền mọi đổi mới từ lâu.
An Yong: Ông có tránh phát triển ứng dụng vì DeepSeek thiếu chuyên môn vận hành không?
Liang Wenfeng: Chúng tôi tin rằng giai đoạn hiện tại là thời kỳ đổi mới công nghệ, không phải thời kỳ bùng nổ ứng dụng.
Về lâu dài, chúng tôi muốn xây dựng một hệ sinh thái nơi ngành công nghiệp có thể trực tiếp sử dụng công nghệ và sản phẩm của chúng tôi. Các công ty khác có thể phát triển dịch vụ B2B/B2C trên nền tảng mô hình của DeepSeek, trong khi chúng tôi tập trung vào nghiên cứu nền tảng.
Nếu toàn bộ chuỗi giá trị được hình thành, chúng tôi không cần tự phát triển ứng dụng. Nhưng nếu cần thiết, chúng tôi hoàn toàn có khả năng làm điều đó. Tuy nhiên, ưu tiên hàng đầu vẫn là nghiên cứu và đổi mới.
An Yong: Vì sao khách hàng nên chọn API của DeepSeek thay vì của các tập đoàn lớn?
Liang Wenfeng: Tương lai sẽ là một thế giới phân công lao động chuyên môn hóa.
AI nền tảng cần đổi mới liên tục, trong khi các công ty lớn có giới hạn—họ không phải lúc nào cũng là lựa chọn tốt nhất cho vai trò này.
An Yong: Nhưng công nghệ một mình có đủ để tạo ra khoảng cách cạnh tranh lớn không? Ông từng nói không có "bí mật tuyệt đối" trong AI.
Liang Wenfeng: Không có bí mật, nhưng tái tạo công nghệ đòi hỏi thời gian và chi phí.
GPU của NVIDIA không có "ma thuật" nào cả, nhưng để bắt kịp họ, các công ty khác phải xây dựng lại đội ngũ và chạy đua với thế hệ công nghệ tiếp theo của họ. Đó mới chính là rào cản cạnh tranh thực sự.
An Yong: Sau khi ông giảm giá, ByteDance là công ty đầu tiên theo sau, cho thấy họ cảm thấy bị đe dọa. Ông nhìn nhận như thế nào về bối cảnh cạnh tranh mới giữa startup và các tập đoàn lớn?
Liang Wenfeng: Thật lòng mà nói, chúng tôi không quan tâm.
Việc giảm giá chỉ là một quyết định tình cờ trong quá trình phát triển, không phải chiến lược chính của chúng tôi. Cung cấp dịch vụ đám mây không phải mục tiêu cốt lõi của DeepSeek—AGI mới là.
Cho đến nay, tôi vẫn chưa thấy bất kỳ giải pháp mang tính đột phá nào từ các tập đoàn lớn.
Các gã khổng lồ có lợi thế về người dùng, nhưng chính những nguồn doanh thu khổng lồ hiện tại lại trói buộc họ, khiến họ trở thành mục tiêu dễ bị thay thế.
An Yong: Theo ông, trong số 6 startup AI lớn tại Trung Quốc, ai sẽ tồn tại lâu dài?
Liang Wenfeng: Có thể chỉ 2-3 công ty sống sót.
Hiện tại, tất cả đều đang đốt tiền. Những công ty có định hướng rõ ràng và kỷ luật vận hành tốt sẽ tồn tại, trong khi những công ty khác sẽ phải chuyển hướng.
Giá trị không biến mất—nó chỉ chuyển sang một hình thức khác.
An Yong: Triết lý cốt lõi của ông khi nói về cạnh tranh là gì?
Liang Wenfeng: Tôi tập trung vào việc một công nghệ có thể nâng cao hiệu suất xã hội hay không, và liệu chúng tôi có thể tìm thấy vị trí chiến lược trong chuỗi giá trị ngành hay không.
Chỉ cần mục tiêu cuối cùng là nâng cao hiệu suất, thì hướng đi đó là hợp lý.
Nhiều vấn đề hiện tại chỉ là giai đoạn tạm thời—nếu quá tập trung vào chúng, bạn sẽ mất phương hướng.
An Yong: Jack Clark, cựu lãnh đạo chính sách của OpenAI và đồng sáng lập Anthropic, từng nói rằng DeepSeek đã thuê một số "phù thủy khó lường" để xây dựng DeepSeek V2. Những người này là ai?
Liang Wenfeng: Không có "phù thủy khó lường" nào cả—chỉ là những sinh viên tốt nghiệp từ các trường đại học hàng đầu, nghiên cứu sinh tiến sĩ (thậm chí cả thực tập sinh năm thứ tư hoặc thứ năm) và những tài năng trẻ có vài năm kinh nghiệm.
An Yong: Nhiều công ty AI lớn đang săn đón nhân tài từ nước ngoài. Một số người cho rằng top 50 nhân tài AI hàng đầu thế giới khó có khả năng làm việc cho công ty Trung Quốc.
Liang Wenfeng: Mô hình V2 của DeepSeek được xây dựng hoàn toàn bởi nhân tài trong nước.
Có thể top 50 nhân tài AI toàn cầu chưa ở Trung Quốc hôm nay, nhưng chúng tôi đặt mục tiêu tự xây dựng đội ngũ của mình.
An Yong: Kiến trúc MLA của DeepSeek xuất phát từ đâu? Chúng tôi nghe nói rằng nó ban đầu chỉ là một sở thích cá nhân của một nhà nghiên cứu trẻ?
Liang Wenfeng: Sau khi tổng hợp các mô hình tiến hóa chính của kiến trúc Attention, nhà nghiên cứu này đã nảy ra một ý tưởng đột phá để thiết kế một giải pháp thay thế.
Tuy nhiên, biến một ý tưởng thành hiện thực là một hành trình dài. Chúng tôi đã tập hợp một nhóm nghiên cứu và dành nhiều tháng để kiểm chứng nó.
An Yong: Cấu trúc tổ chức của DeepSeek có vẻ rất linh hoạt. Ông có áp dụng mô hình quản lý từ trên xuống đối với AGI không?
Liang Wenfeng: DeepSeek hoàn toàn vận hành từ dưới lên.
Chúng tôi không ấn định vai trò từ trước; phân công lao động xuất hiện một cách tự nhiên.
Mỗi người đều mang theo những trải nghiệm và ý tưởng độc đáo, họ không cần bị ép buộc phải làm gì. Khi gặp thử thách, họ tự nhiên kéo đồng đội vào thảo luận.
Tuy nhiên, khi một ý tưởng chứng minh được tiềm năng, chúng tôi sẽ cấp tài nguyên theo mô hình từ trên xuống để đẩy nhanh tiến độ.
An Yong: Chúng tôi nghe nói rằng DeepSeek có tính linh hoạt đặc biệt trong việc phân bổ tài nguyên tính toán và nhân sự.
Liang Wenfeng: Chúng tôi không có giới hạn về quyền truy cập tài nguyên tính toán hoặc nhân sự.
Nếu ai đó có ý tưởng, họ có thể sử dụng các cụm huấn luyện (training clusters) bất kỳ lúc nào mà không cần phê duyệt.
Ngoài ra, do không có cấu trúc phân cấp cứng nhắc hay rào cản phòng ban, mọi người có thể hợp tác tự do miễn là có cùng mối quan tâm.
An Yong: Quản lý lỏng lẻo như vậy đòi hỏi một đội ngũ có động lực cao. Người ta nói rằng DeepSeek có cách tuyển chọn nhân tài rất khác biệt.
Liang Wenfeng: cười Chúng tôi không tìm kiếm những hồ sơ hoàn hảo trên giấy tờ, mà là những người có tư duy khác biệt và dám chấp nhận rủi ro để đổi mới.
An Yong: Tiêu chí tuyển dụng của DeepSeek là gì?
Liang Wenfeng: Chúng tôi luôn tìm kiếm những người có đam mê và tò mò thực sự.
Nhiều thành viên trong nhóm có lý lịch rất đặc biệt. Họ có niềm khao khát nghiên cứu vượt xa các mối quan tâm về tài chính.
An Yong: Transformer ra đời trong phòng thí nghiệm AI của Google, ChatGPT xuất phát từ OpenAI. Theo ông, các phòng thí nghiệm AI doanh nghiệp khác gì so với startup trong việc thúc đẩy đổi mới?
Liang Wenfeng: Dù là phòng thí nghiệm của Google, OpenAI hay các tập đoàn công nghệ Trung Quốc, tất cả đều có giá trị quan trọng.
Thực tế, OpenAI đạt được đột phá cũng một phần là do yếu tố lịch sử may mắn.
An Yong: Vậy đổi mới có phải chỉ là vấn đề may mắn?
Tôi nhận thấy văn phòng DeepSeek có những phòng họp với cửa mở hai bên, đồng nghiệp của ông nói rằng thiết kế này giúp tạo ra "sự ngẫu nhiên có chủ đích". Điều này khiến tôi liên tưởng đến câu chuyện về Transformer—nơi một nhà nghiên cứu tình cờ nghe được một cuộc thảo luận và từ đó giúp định hình một kiến trúc nền tảng.
Liang Wenfeng: Tôi tin rằng đổi mới, trước hết, là vấn đề của niềm tin.
Vì sao Thung lũng Silicon có khả năng đổi mới cao? Vì họ dám thử.
Khi ChatGPT ra mắt, các công ty Trung Quốc thiếu tự tin vào nghiên cứu tiên phong.
Từ các nhà đầu tư đến tập đoàn công nghệ lớn, nhiều người cho rằng khoảng cách với phương Tây quá lớn và thay vì đuổi kịp, họ tập trung vào ứng dụng.
Nhưng đổi mới đòi hỏi sự tự tin, và người trẻ thường có nhiều niềm tin hơn.
An Yong: Không giống như các công ty AI khác chủ động tìm kiếm vốn đầu tư và thu hút sự chú ý từ truyền thông, DeepSeek lại khá kín tiếng. Làm thế nào để ông đảm bảo DeepSeek trở thành lựa chọn hàng đầu cho những nhân tài AI?
Liang Wenfeng: Vì chúng tôi đang giải quyết những vấn đề khó nhất.
Đối với những nhân tài hàng đầu, điều hấp dẫn nhất không phải là lương cao hay danh tiếng, mà là cơ hội giải quyết những bài toán khó nhất của thế giới.
Trên thực tế, nhân tài ở Trung Quốc thường bị đánh giá thấp vì đổi mới thực sự rất hiếm, điều đó khiến họ ít có cơ hội thể hiện khả năng của mình.
Chúng tôi mang đến cho họ điều mà họ khao khát.
An Yong: Tại sự kiện OpenAI gần đây, không có GPT-5, khiến nhiều người cho rằng đường cong phát triển của ngành đang chậm lại, và một số bắt đầu nghi ngờ về Định luật Scaling. Ông nghĩ sao?
Liang Wenfeng: Chúng tôi vẫn lạc quan.
Sự phát triển của ngành vẫn đi đúng kỳ vọng.
OpenAI không phải thần thánh, họ không thể dẫn đầu mãi mãi.
An Yong: Bao lâu nữa AGI sẽ trở thành hiện thực?
Trước đây, ông từng phát hành các mô hình toán học và mã nguồn rồi chuyển từ mô hình dày đặc (dense) sang MoE【2】. Lộ trình của ông là gì?
Liang Wenfeng: Có thể mất 2 năm, 5 năm hoặc 10 năm, nhưng nó chắc chắn sẽ xảy ra trong đời chúng ta.
Còn về lộ trình, ngay trong DeepSeek cũng chưa có sự đồng thuận tuyệt đối.
Tuy nhiên, chúng tôi đặt cược vào 3 hướng chính:
Toán học và mã nguồn, vì đây là môi trường thử nghiệm tự nhiên cho AGI—giống như cờ vây, chúng là hệ thống khép kín, có thể kiểm chứng, nơi học tự động có thể dẫn đến trí tuệ cao.
Đa phương thức (multimodality), nơi AI tương tác với thế giới thực để học hỏi.
Ngôn ngữ tự nhiên, nền tảng của trí tuệ giống con người.
Chúng tôi không giới hạn bản thân vào bất kỳ khả năng nào.
An Yong: Ông hình dung "endgame" của các mô hình AI lớn sẽ ra sao?
Liang Wenfeng: Sẽ có các công ty chuyên cung cấp mô hình nền tảng và dịch vụ, tạo thành một chuỗi giá trị dài với các mảng chuyên môn hóa.
Ngày càng nhiều công ty sẽ xuất hiện để đáp ứng nhu cầu đa dạng của xã hội trên nền tảng này.
An Yong: Trong năm qua, nhiều thay đổi đã diễn ra trong hệ sinh thái startup AI Trung Quốc.
Ví dụ, Wang Huiwen【3】, một nhân vật rất tích cực giai đoạn đầu, đã rời cuộc chơi giữa chừng, trong khi những người chơi mới bắt đầu phân hóa.
Liang Wenfeng: Wang Huiwen đã chấp nhận mọi khoản lỗ về phần mình, giúp những người khác rút lui an toàn.
Ông ấy đã đưa ra quyết định bất lợi nhất cho bản thân nhưng có lợi cho tất cả những người còn lại.
Tôi thực sự ngưỡng mộ sự chính trực của ông ấy.
An Yong: Hiện tại, nhiều startup AI cố gắng cân bằng giữa phát triển mô hình và ứng dụng, vì họ cho rằng lợi thế công nghệ không tồn tại vĩnh viễn.
Vậy tại sao DeepSeek lại tự tin chỉ tập trung vào nghiên cứu?
Có phải vì mô hình của ông vẫn còn tụt hậu?
Liang Wenfeng: cười Nếu chúng tôi thực sự tụt hậu, chúng tôi đã không có cuộc phỏng vấn này.
Tập trung vào nghiên cứu không phải vì chúng tôi chậm hơn, mà vì chúng tôi tin rằng AI Trung Quốc cần một hướng đi khác—một hướng đi không chỉ dựa vào thương mại hóa ngắn hạn.
Liang Wenfeng: Mọi chiến lược đều là sản phẩm của thế hệ trước và có thể không còn đúng trong tương lai.
Thảo luận về khả năng sinh lợi của AI bằng logic kinh doanh của thời đại internet cũng giống như so sánh Tencent thời kỳ đầu với General Electric hay Coca-Cola—đó là một cách tiếp cận lỗi thời, giống như "khắc thuyền tìm gươm".
An Yong: Huanfang sở hữu năng lực công nghệ mạnh mẽ và có vẻ phát triển tương đối suôn sẻ. Đây có phải lý do khiến ông lạc quan?
Liang Wenfeng:
Huanfang, ở một mức độ nào đó, đã củng cố niềm tin của chúng tôi vào đổi mới công nghệ, nhưng nó không phải là một hành trình dễ dàng.
Chúng tôi đã trải qua một quá trình tích lũy rất dài.
Mọi người chỉ nhìn thấy những gì diễn ra sau năm 2015, nhưng thực tế, chúng tôi đã làm việc trong lĩnh vực này suốt 16 năm trước đó.
An Yong: Với nền kinh tế đang chậm lại và vốn đầu tư giảm sút, điều này có làm cản trở R&D đột phá không?
Liang Wenfeng: Không hẳn.
Quá trình tái cấu trúc ngành công nghiệp của Trung Quốc sẽ ngày càng dựa vào đổi mới công nghệ chuyên sâu.
Khi những cơ hội kiếm tiền nhanh dần biến mất, nhiều người sẽ bắt đầu chấp nhận đổi mới thực sự.
An Yong: Vậy ông vẫn lạc quan về điều này?
Liang Wenfeng:
Tôi sinh ra vào những năm 1980 tại một thành phố cấp năm ở Quảng Đông.
Bố tôi là một giáo viên tiểu học.
Những năm 1990, ở Quảng Đông có rất nhiều cơ hội kiếm tiền.
Rất nhiều phụ huynh đến nhà tôi và tranh luận rằng học hành là vô ích.
Nhưng nhìn lại bây giờ, mọi thứ đã thay đổi.
Kiếm tiền không còn dễ như trước nữa—thậm chí ngay cả việc lái taxi cũng không còn là một lựa chọn khả thi.
Chỉ trong một thế hệ, mọi thứ đã thay đổi.
Liang Wenfeng:
Đổi mới công nghệ chuyên sâu (hardcore innovation) chỉ có thể ngày càng phát triển.
Hiện tại, nó chưa được hiểu rộng rãi vì xã hội vẫn cần học hỏi từ thực tế.
Khi xã hội bắt đầu tôn vinh thành công của những nhà đổi mới công nghệ thực sự, nhận thức tập thể sẽ thay đổi.
Điều duy nhất chúng ta cần là nhiều ví dụ thực tiễn hơn và thời gian để quá trình này diễn ra.
Liang Wenfeng tin rằng:
Biên tập viên: Zhongxiaowen
Nguồn tham khảo:
【1】 Huanfang: Một công ty đầu tư định lượng, là nhà đầu tư sớm của DeepSeek.
【2】 MoE (Mixture of Experts): Kiến trúc AI giúp cải thiện hiệu suất mô hình bằng cách kích hoạt các mạng con chuyên biệt.
【3】 Wang Huiwen: Đồng sáng lập Meituan, từng tham gia cuộc đua AI năm 2023 nhưng sau đó rút lui.