CEO Anthropic: Deepseek và vấn đề kiểm soát xuất khẩu công nghệ
3 xu hướng chính trong phát triển AI:
- Quy luật mở rộng quy mô: Chi phí huấn luyện tăng sẽ cải thiện khả năng nhận thức của AI. Ví dụ: mô hình 1 triệu USD giải được 20% bài toán lập trình, 10 triệu USD giải được 40%
- Đường cong chi phí giảm khoảng 4x mỗi năm nhờ cải tiến về kiến trúc, phần cứng và hiệu quả vận hành
- Chuyển đổi mô hình huấn luyện: Từ 2020-2023 tập trung vào mô hình được huấn luyện trước, 2024 chuyển sang học tăng cường (RL) để tạo chuỗi suy luận
Về DeepSeek:
- DeepSeek-V3 là mô hình được huấn luyện với chi phí 6 triệu USD, đạt hiệu suất gần với các mô hình hàng đầu của Mỹ
- Công ty sở hữu khoảng 50.000 chip Hopper trị giá khoảng 1 tỷ USD
- Mô hình R1 được phát hành sau đó sử dụng học tăng cường, tương tự như mô hình o1 của OpenAI
Về chính sách kiểm soát xuất khẩu:
- Mục tiêu ngăn Trung quốc tiếp cận hàng triệu chip AI vào 2026-2027
- Hạn chế xuất khẩu H100 hoàn toàn, H800 bị cấm từ 10/2023
- DeepSeek vẫn có thể tiếp cận chip thông qua nhiều nguồn khác nhau nhưng khó có thể đạt quy mô hàng triệu chip
📌 DeepSeek không thực sự phá vỡ đường cong chi phí của ngành AI mà chỉ theo xu hướng giảm chi phí tự nhiên. Chính sách kiểm soát xuất khẩu chip vẫn cần thiết để duy trì lợi thế công nghệ của Mỹ, đặc biệt khi ngành AI cần hàng triệu chip trị giá hàng chục tỷ USD vào 2026-2027.
https://darioamodei.com/on-deepseek-and-export-controls
Về DeepSeek và Kiểm Soát Xuất Khẩu
Tháng 01 năm 2025
Vài tuần trước, tôi đã lập luận rằng Mỹ cần thắt chặt hơn nữa các biện pháp kiểm soát xuất khẩu chip sang Trung Quốc. Kể từ đó, DeepSeek—một công ty AI Trung Quốc—đã đạt được hiệu suất gần tương đương với các mô hình AI tiên tiến của Mỹ nhưng với chi phí thấp hơn.
Ở đây, tôi sẽ không tập trung vào việc liệu DeepSeek có thực sự đe dọa các công ty AI Mỹ như Anthropic hay không (dù tôi tin rằng nhiều lo ngại về việc Trung Quốc vượt mặt Mỹ trong AI đang bị phóng đại quá mức【1】). Thay vào đó, tôi muốn bàn về việc liệu những bước tiến của DeepSeek có làm suy yếu lý do áp đặt các biện pháp kiểm soát xuất khẩu chip hay không.
Câu trả lời của tôi là không.
Thực tế, DeepSeek càng phát triển, chính sách kiểm soát xuất khẩu càng trở nên quan trọng hơn.
Kiểm soát xuất khẩu: Giữ vững vị thế của các quốc gia dân chủ trong AI
Kiểm soát xuất khẩu có mục tiêu cốt lõi: giữ các quốc gia dân chủ ở vị trí tiên phong trong phát triển AI.
Hãy rõ ràng: đây không phải là cách để né tránh cạnh tranh giữa Mỹ và Trung Quốc.
Cuối cùng, các công ty AI tại Mỹ và các nền dân chủ khác vẫn cần tạo ra những mô hình tốt hơn Trung Quốc nếu chúng ta muốn dẫn đầu.
Nhưng chúng ta không nên trao cho Đảng Cộng sản Trung Quốc lợi thế công nghệ khi không bắt buộc phải làm vậy.
3 động lực chính trong phát triển AI
Trước khi đi sâu vào lập luận chính sách, tôi muốn giải thích 3 yếu tố cơ bản trong AI mà chúng ta cần hiểu:
1. Định luật Scaling
Một tính chất quan trọng của AI—mà tôi và các đồng nghiệp đã từng nghiên cứu khi còn ở OpenAI—là khi tăng quy mô huấn luyện mô hình AI, hiệu suất sẽ tăng một cách có hệ thống.
Ví dụ:
- Một mô hình AI trị giá 1 triệu USD có thể giải được 20% các bài toán lập trình quan trọng.
- Một mô hình 10 triệu USD có thể giải được 40%.
- Một mô hình 100 triệu USD có thể giải được 60%, và cứ thế tiếp tục.
Những khác biệt này có tác động rất lớn trong thực tế—một mức tăng thêm 10 lần chi phí có thể tương đương với chênh lệch trình độ giữa một sinh viên đại học và một tiến sĩ.
Do đó, các công ty AI đang đầu tư mạnh vào huấn luyện mô hình với quy mô ngày càng lớn.
2. Dịch chuyển đường cong chi phí
Ngành AI liên tục đưa ra những cải tiến lớn và nhỏ giúp tăng hiệu quả hoặc giảm chi phí:
- Một thay đổi nhỏ trong kiến trúc mô hình (ví dụ: tinh chỉnh Transformer).
- Một cải tiến giúp chạy mô hình hiệu quả hơn trên phần cứng hiện có.
- Một thế hệ phần cứng mới có hiệu suất cao hơn.
Những cải tiến này có tác dụng dịch chuyển đường cong hiệu suất:
- Nếu một cải tiến mang lại hiệu suất gấp 2 lần (compute multiplier, CM), thì thay vì cần 10 triệu USD để đạt 40%, ta chỉ cần 5 triệu USD.
- Hoặc thay vì cần 100 triệu USD để đạt 60%, ta chỉ cần 50 triệu USD.
Mỗi công ty AI hàng đầu đều thường xuyên tìm ra những CM mới:
- CM nhỏ (~1.2x) xuất hiện thường xuyên.
- CM trung bình (~2x) thỉnh thoảng xuất hiện.
- CM lớn (~10x) rất hiếm nhưng có thể thay đổi cuộc chơi.
Vì giá trị của một hệ thống AI thông minh hơn là rất cao, các công ty không giảm ngân sách khi chi phí huấn luyện giảm—họ chỉ đơn giản là huấn luyện các mô hình thông minh hơn, nhanh hơn.
Có một quan niệm sai lầm phổ biến rằng "đầu tiên AI đắt đỏ, sau đó nó trở nên rẻ hơn"—cứ như thể AI là một sản phẩm có chất lượng cố định. Nhưng thực tế không phải như vậy.
Cái quan trọng là đường cong Scaling: khi chi phí huấn luyện giảm, chúng ta không giảm số lượng chip dùng để huấn luyện, mà thay vào đó, chúng ta huấn luyện những mô hình mạnh hơn nhanh hơn.
Năm 2020, tôi và nhóm của mình đã công bố một nghiên cứu cho thấy định luật cải tiến thuật toán đang tăng tốc ở mức ~1.68x/năm.
Tôi tin rằng hiện nay tốc độ này đã tăng lên ít nhất ~4x/năm, đặc biệt khi tính đến cả phần cứng và tối ưu hóa hiệu suất.
3. Cải tiến huấn luyện cũng cải thiện suy luận
Khi đường cong huấn luyện được cải thiện, đường cong suy luận (inference) cũng dịch chuyển theo, giúp giảm mạnh giá thành triển khai AI mà vẫn giữ nguyên chất lượng mô hình.
Ví dụ:
- Claude 3.5 Sonnet (ra mắt sau GPT-4 khoảng 15 tháng) vượt trội hơn GPT-4 trên hầu hết các tiêu chí, trong khi giá API chỉ còn 1/10.
Kết luận: Những cải tiến này không làm AI rẻ hơn—chúng chỉ giúp AI mạnh hơn với cùng mức chi phí.
DeepSeek có làm suy yếu lý do kiểm soát xuất khẩu chip không?
Không.
Thực tế, những bước tiến của DeepSeek lại khiến kiểm soát xuất khẩu trở nên quan trọng hơn bao giờ hết.
Tại sao?
- Nếu Trung Quốc có thể đạt được hiệu suất AI gần tương đương với Mỹ bằng số chip ít hơn, điều đó không có nghĩa là kiểm soát chip là vô dụng.
- Thay vào đó, điều đó có nghĩa là chúng ta phải kiểm soát chip nghiêm ngặt hơn để giữ vững lợi thế công nghệ của Mỹ.
- Vì AI đang tăng tốc nhanh hơn dự đoán, việc giới hạn khả năng tính toán của Trung Quốc trở thành yếu tố then chốt để đảm bảo khoảng cách giữa Mỹ và Trung Quốc không bị thu hẹp quá nhanh.
Kiểm soát xuất khẩu không thể ngăn cản Trung Quốc phát triển AI, nhưng có thể làm chậm tốc độ của họ, giúp Mỹ có thêm thời gian củng cố vị thế dẫn đầu.
Nói cách khác: DeepSeek không chứng minh rằng kiểm soát xuất khẩu là vô ích—mà nó chứng minh rằng kiểm soát xuất khẩu là cần thiết hơn bao giờ hết.
Thay đổi mô hình phát triển AI
Thỉnh thoảng, cách mà AI được mở rộng quy mô lại thay đổi, hoặc một phương pháp mở rộng mới được bổ sung vào quá trình huấn luyện.
- Từ 2020-2023, phần mở rộng chính là các mô hình tiền huấn luyện (pretrained models)—tức là mô hình được huấn luyện trên lượng dữ liệu internet ngày càng lớn, với một chút tinh chỉnh bổ sung sau đó.
- Năm 2024, cách tiếp cận bằng học tăng cường (Reinforcement Learning - RL) để huấn luyện mô hình sinh chuỗi tư duy (chain of thought generation) đã trở thành trọng tâm mới trong mở rộng quy mô AI.
Học tăng cường và bước ngoặt mới trong AI
Các công ty như Anthropic, DeepSeek, và đặc biệt là OpenAI với mô hình o1-preview ra mắt vào tháng 9, đều nhận thấy rằng học tăng cường (RL) có thể cải thiện đáng kể hiệu suất trên một số nhiệm vụ đo lường khách quan như:
- Toán học
- Các cuộc thi lập trình
- Các dạng lập luận phức tạp giống với hai lĩnh vực trên
Mô hình này hoạt động theo hai giai đoạn:
- Giai đoạn 1: Huấn luyện mô hình tiền huấn luyện như trước đây.
- Giai đoạn 2: Dùng học tăng cường (RL) để cải thiện kỹ năng tư duy.
Điều quan trọng cần hiểu là việc sử dụng RL vẫn còn rất mới.
- Hiện tại, chi tiêu cho RL còn nhỏ ở tất cả các công ty.
- Chỉ cần tăng từ 100.000 USD lên 1 triệu USD cũng tạo ra mức cải thiện đáng kể.
- Các công ty hiện đang chạy đua để mở rộng quy mô giai đoạn 2 lên hàng trăm triệu, thậm chí hàng tỷ USD.
Điều này đưa chúng ta đến một "điểm giao thoa" quan trọng:
- Một phương pháp mới, đầy tiềm năng
- Chưa được khai thác triệt để
- Có thể mang lại những bước nhảy vọt nhanh chóng
Mô hình của DeepSeek
3 yếu tố trên có thể giúp giải thích các bước tiến gần đây của DeepSeek.
Khoảng một tháng trước, DeepSeek ra mắt mô hình "DeepSeek-V3", đây chỉ là mô hình tiền huấn luyện, tức giai đoạn 1 trong quy trình nêu trên.
Tuần trước, họ tiếp tục ra mắt "R1", mô hình có thêm giai đoạn 2 với RL.
Từ bên ngoài, chúng ta không thể biết chính xác mọi thứ về các mô hình này, nhưng dưới đây là những gì tôi hiểu rõ nhất về hai phiên bản của DeepSeek.
DeepSeek-V3: Bước tiến thực sự
Mô hình DeepSeek-V3 thực chất mới là đột phá quan trọng, và đáng lẽ phải được chú ý nhiều hơn ngay từ khi ra mắt.
- Với tư cách một mô hình tiền huấn luyện, nó đạt hiệu suất tương đương với các mô hình tiên tiến của Mỹ trên một số tác vụ quan trọng, nhưng chi phí huấn luyện thấp hơn đáng kể.
- Tuy nhiên, Claude 3.5 Sonnet của Anthropic vẫn vượt trội hơn đáng kể trong một số tác vụ quan trọng, đặc biệt là lập trình trong môi trường thực tế.
DeepSeek đạt được kết quả này nhờ một số cải tiến kỹ thuật thực sự ấn tượng, chủ yếu tập trung vào tối ưu hóa hiệu suất kỹ thuật:
- Cải tiến đặc biệt trong quản lý bộ nhớ đệm Key-Value (Key-Value cache).
- Đẩy mạnh phương pháp Mixture of Experts (MoE) hơn so với trước đây.
Nhưng cần nhìn nhận kỹ hơn
1. DeepSeek không phải "làm được với 6 triệu USD những gì Mỹ cần hàng tỷ USD để làm".
Tôi chỉ có thể nói thay cho Anthropic, nhưng:
- Claude 3.5 Sonnet là một mô hình có quy mô trung bình, và chi phí huấn luyện chỉ ở mức vài chục triệu USD (tôi không thể tiết lộ con số chính xác).
- Sonnet không được huấn luyện bằng một mô hình lớn hơn hay đắt tiền hơn, trái với một số tin đồn.
- Claude 3.5 Sonnet đã được huấn luyện từ 9-12 tháng trước, trong khi DeepSeek-V3 được huấn luyện vào tháng 11/12 năm 2024.
- Sonnet vẫn vượt trội hơn DeepSeek-V3 trên nhiều bài đánh giá nội bộ và bên ngoài.
Vì vậy, một tuyên bố công bằng hơn là:
DeepSeek đã tạo ra một mô hình gần với các mô hình của Mỹ ra mắt trước đó 7-10 tháng, với chi phí thấp hơn đáng kể (nhưng không đến mức tỷ lệ mà nhiều người đã suy đoán).
DeepSeek-V3 không phải là một đột phá mang tính cách mạng
Xu hướng giảm chi phí AI vẫn đang diễn ra như thường lệ
Nếu chi phí huấn luyện AI theo định luật giảm chi phí (cost curve decrease) giảm ~4 lần mỗi năm, thì theo xu hướng lịch sử (giống như năm 2023 và 2024), ta có thể dự đoán rằng:
- Một mô hình có chi phí rẻ hơn 3-4 lần so với Claude 3.5 Sonnet hoặc GPT-4o ở thời điểm hiện tại là điều hoàn toàn bình thường.
- Nếu DeepSeek-V3 kém hơn khoảng 2 lần trên đường cong Scaling so với các mô hình AI tiên tiến nhất của Mỹ (một đánh giá có phần ưu ái DeepSeek-V3), thì theo quy luật, chi phí huấn luyện của nó có thể thấp hơn khoảng 8 lần so với các mô hình Mỹ ra mắt một năm trước.
Điều này có nghĩa là:
- Ngay cả khi chấp nhận con số chi phí huấn luyện của DeepSeek, thì mô hình này chỉ đơn thuần là một điểm trên xu hướng giảm chi phí đang diễn ra, chứ không phải một bước đột phá làm thay đổi toàn bộ kinh tế học của LLMs (mô hình ngôn ngữ lớn).
- Trên thực tế, DeepSeek-V3 còn có mức giảm chi phí thấp hơn cả khoảng cách giữa GPT-4 và Claude 3.5 Sonnet trong chi phí suy luận (Claude 3.5 Sonnet rẻ hơn GPT-4 tới 10 lần, đồng thời vẫn tốt hơn GPT-4 về hiệu suất).
Điểm khác biệt duy nhất lần này là:
- Công ty đầu tiên chứng minh xu hướng giảm chi phí lại là một công ty Trung Quốc.
Đây là một sự kiện quan trọng về mặt địa chính trị, nhưng không phải là một đột phá kỹ thuật chưa từng có.
Các công ty AI Mỹ cũng đang đạt được mức giảm chi phí tương tự
Các công ty AI của Mỹ không cần phải sao chép DeepSeek để đạt được mức chi phí thấp hơn—họ cũng đang tiến theo quy luật giảm chi phí thông thường của ngành AI.
- Cả DeepSeek và các công ty AI Mỹ đều đang sở hữu nhiều tiền và nhiều GPU hơn bao giờ hết.
- Những GPU này không chỉ dùng để huấn luyện một mô hình duy nhất, mà còn phục vụ R&D để phát triển ý tưởng đằng sau mô hình, hoặc đào tạo các mô hình lớn hơn chưa sẵn sàng ra mắt.
Theo một số báo cáo (chưa thể xác nhận hoàn toàn), DeepSeek hiện có 50.000 GPU Hopper.
- Đây là chỉ bằng 1/2 hoặc 1/3 số GPU mà các công ty AI Mỹ lớn nhất đang có (ví dụ, cụm "Colossus" của xAI có gấp 2-3 lần con số này【7】).
- Chỉ riêng 50.000 GPU Hopper này đã có giá trị khoảng 1 tỷ USD.
Như vậy, tổng chi tiêu của DeepSeek với tư cách một công ty (không chỉ riêng chi phí huấn luyện mô hình) không chênh lệch quá nhiều so với các phòng thí nghiệm AI lớn của Mỹ.
Mô hình DeepSeek-R1 không có đột phá kỹ thuật đáng kể
DeepSeek-R1 là mô hình được ra mắt tuần trước và đã tạo ra làn sóng chú ý lớn, gây giảm 17% giá cổ phiếu của Nvidia.
Tuy nhiên, từ góc độ đổi mới và kỹ thuật, R1 kém thú vị hơn nhiều so với V3.
- V3 là bước đột phá thực sự về tối ưu hóa kỹ thuật.
- R1 chỉ đơn giản là thêm giai đoạn thứ hai—học tăng cường (RL), tức là sao chép cách tiếp cận mà OpenAI đã làm với o1.
- R1 và o1 dường như có quy mô và kết quả tương tự nhau【8】.
Nhưng vì chúng ta đang ở giai đoạn đầu của đường cong Scaling, nhiều công ty có thể tạo ra các mô hình AI suy luận tốt bằng cách áp dụng RL lên một mô hình tiền huấn luyện mạnh.
- Việc tạo ra R1 dựa trên V3 có thể là một quá trình rất rẻ.
- Hiện tại, nhiều công ty có thể tạo ra mô hình tư duy chuỗi (chain-of-thought reasoning) tốt như R1.
Tuy nhiên, điều này sẽ không kéo dài lâu.
- Khi các công ty tiến xa hơn trên đường cong Scaling của các mô hình AI suy luận, khoảng cách giữa những người đi đầu và phần còn lại sẽ gia tăng trở lại.
Tổng kết
- DeepSeek-V3 không phải là một đột phá làm thay đổi toàn bộ ngành AI, mà chỉ là một điểm trên xu hướng giảm chi phí đang diễn ra.
- Điểm khác biệt duy nhất là lần đầu tiên, một công ty Trung Quốc đạt được xu hướng giảm chi phí trước Mỹ—đây là một vấn đề địa chính trị, không phải vấn đề kỹ thuật.
- Các công ty AI Mỹ cũng sẽ nhanh chóng giảm chi phí theo xu hướng tương tự, không cần sao chép DeepSeek.
- DeepSeek có khoảng 50.000 GPU Hopper (trị giá khoảng 1 tỷ USD), không chênh lệch quá lớn so với các công ty AI Mỹ.
- DeepSeek-R1 không có cải tiến kỹ thuật đáng kể, chỉ là một bước triển khai RL giống như OpenAI đã làm với o1.
- Chúng ta đang ở một "điểm giao thoa" (crossover point), nơi nhiều công ty có thể tạo ra các mô hình suy luận mạnh. Tuy nhiên, điều này sẽ không kéo dài lâu.
Kiểm Soát Xuất Khẩu: Quyết Định Một Thế Giới Đơn Cực hay Hai Cực
Cuộc đua AI và chi phí không ngừng tăng
Các công ty AI đang chi tiêu ngày càng nhiều để huấn luyện những mô hình mạnh hơn, ngay cả khi chi phí huấn luyện giảm theo xu hướng định kỳ.
Tại sao?
- Giá trị kinh tế của các mô hình AI thông minh hơn là quá lớn, đến mức bất kỳ khoản tiết kiệm nào cũng ngay lập tức được tái đầu tư để tạo ra mô hình thông minh hơn với chi phí khổng lồ như ban đầu.
- Những cải tiến về hiệu suất mà DeepSeek đạt được (và chưa được các phòng thí nghiệm Mỹ áp dụng) sẽ sớm được các công ty Mỹ và Trung Quốc tích hợp để huấn luyện các mô hình AI trị giá hàng tỷ USD.
- Các mô hình mới này sẽ mạnh hơn đáng kể, nhưng chi phí huấn luyện vẫn tiếp tục tăng—cho đến khi chúng ta đạt đến AI thông minh hơn gần như tất cả con người trong hầu hết các lĩnh vực.
Mốc thời gian?
- AI thông minh hơn con người trong gần như mọi lĩnh vực sẽ cần hàng triệu GPU, hàng chục tỷ USD.
- Dự kiến điều này sẽ xảy ra vào khoảng năm 2026-2027.
DeepSeek không làm thay đổi thực tế này—họ đơn giản chỉ là một điểm dữ liệu trên đường cong chi phí đã được tính toán từ trước.
2026-2027: Thế giới sẽ đơn cực hay hai cực?
Vào năm 2026-2027, chúng ta có thể đối mặt với hai kịch bản hoàn toàn khác nhau.
Kịch bản 1: Thế giới hai cực (Mỹ - Trung cân bằng AI)
- Mỹ chắc chắn sẽ có hàng triệu GPU và đủ tài chính (từ 10-100 tỷ USD) để huấn luyện AI mạnh nhất.
- Câu hỏi là liệu Trung Quốc có thể sở hữu số lượng GPU tương tự hay không.
Nếu Trung Quốc có thể đạt được số lượng GPU này:
- Chúng ta sẽ có một thế giới hai cực (bipolar world), nơi cả Mỹ và Trung Quốc đều có các mô hình AI mạnh mẽ, tạo ra tiến bộ khoa học và công nghệ vượt bậc.
- Nhưng cân bằng này không nhất thiết sẽ tồn tại lâu dài:
- Trung Quốc có thể huy động tài năng, vốn và nguồn lực quân sự nhiều hơn Mỹ.
- Kết hợp với nền công nghiệp khổng lồ và lợi thế chiến lược quân sự, Trung Quốc có thể vượt lên dẫn trước không chỉ trong AI mà còn trong toàn bộ cuộc chơi công nghệ toàn cầu.
Kịch bản 2: Thế giới đơn cực (Mỹ thống trị AI)
Nếu Trung Quốc không thể tiếp cận hàng triệu GPU, chúng ta sẽ có một thế giới đơn cực (unipolar world)—nơi chỉ Mỹ và các đồng minh sở hữu AI mạnh nhất.
- Thế giới đơn cực có thể không kéo dài mãi mãi, nhưng nó có thể mang lại lợi thế lâu dài cho Mỹ.
- Lý do: AI có thể giúp tạo ra những AI còn thông minh hơn—nghĩa là nếu Mỹ dẫn trước trong ngắn hạn, họ có thể duy trì khoảng cách này mãi mãi【10】.
- Trong kịch bản này, Mỹ và các đồng minh có thể giành vị thế thống trị toàn cầu trong nhiều thập kỷ.
Yếu tố quyết định: Kiểm soát xuất khẩu
Biện pháp kiểm soát xuất khẩu là yếu tố quan trọng nhất quyết định liệu thế giới sẽ đơn cực hay hai cực.
- Nếu kiểm soát xuất khẩu được thực thi nghiêm ngặt, Trung Quốc sẽ không thể sở hữu hàng triệu GPU.
- Điều này làm tăng khả năng Mỹ dẫn trước lâu dài.
Kiểm soát xuất khẩu có thất bại không?
DeepSeek không chứng minh rằng các biện pháp kiểm soát xuất khẩu đã thất bại.
- DeepSeek có một lượng GPU đáng kể, nhưng không vượt xa đáng kể so với các công ty AI Mỹ.
- Các biện pháp kiểm soát không nhằm ngăn chặn Trung Quốc sở hữu vài chục nghìn GPU, mà là để ngăn chặn họ sở hữu hàng triệu GPU.
Trung Quốc có thể buôn lậu một số lượng GPU nhỏ, nhưng:
- Không thể giấu được 10 tỷ hay 100 tỷ USD hàng hóa.
- Một triệu GPU là gần như không thể buôn lậu, cả về mặt tài chính lẫn hậu cần.
DeepSeek và lỗ hổng kiểm soát xuất khẩu
Theo SemiAnalysis, DeepSeek hiện sở hữu khoảng 50.000 GPU, bao gồm:
- H100: Bị cấm từ khi ra mắt, nếu DeepSeek có chúng, chắc chắn chúng đã bị buôn lậu.
- H800: Được phép nhập khẩu trước tháng 10/2023, sau đó bị cấm khi chính sách kiểm soát được cập nhật.
- H20: Chưa bị cấm, nhưng thực tế phù hợp hơn cho suy luận (inference) hơn là huấn luyện (training).
Những gì DeepSeek sở hữu cho thấy kiểm soát xuất khẩu đang phát huy tác dụng:
- Nếu Mỹ không cập nhật lệnh cấm năm 2023, DeepSeek có thể đã có một lượng lớn H100 hoặc H800.
- Việc Trung Quốc không có một hệ thống toàn bộ H100 chứng tỏ lỗ hổng kiểm soát đang dần được khắc phục.
- Nếu Mỹ tiếp tục siết chặt kiểm soát, họ có thể ngăn chặn Trung Quốc đạt đến ngưỡng hàng triệu GPU.
DeepSeek không phải đối thủ, nhưng chính phủ Trung Quốc thì có
DeepSeek không phải là kẻ thù của Mỹ.
- Nhóm nghiên cứu của DeepSeek bao gồm các kỹ sư tài năng và đam mê công nghệ.
- Họ chỉ đơn thuần muốn tạo ra công nghệ hữu ích.
Nhưng họ hoạt động dưới sự kiểm soát của một chính phủ độc tài, chính phủ này:
- Vi phạm nhân quyền.
- Hành xử hung hăng trên trường quốc tế.
- Sẽ còn táo bạo hơn nữa nếu họ đạt được vị thế ngang bằng với Mỹ trong AI.
Xu hướng AI ngày càng mạnh hơn không phải là lý do để dỡ bỏ kiểm soát xuất khẩu
- Một số người cho rằng AI càng mạnh thì càng khó kiểm soát, nên Mỹ không cần kiểm soát xuất khẩu nữa.
- Lập luận này là vô lý.
Chính vì công nghệ AI ngày càng mạnh, việc kiểm soát xuất khẩu càng trở nên quan trọng hơn bao giờ hết.
Mỹ không thể để Trung Quốc có đủ GPU để xây dựng một AI ngang hàng với Mỹ.
Nếu kiểm soát xuất khẩu được thực thi đúng cách, Mỹ có thể duy trì vị thế AI số một thế giới trong nhiều thập kỷ tới.