- GPU Blackwell thế hệ mới của Nvidia đang đối mặt với vấn đề quá nhiệt nghiêm trọng khi lắp đặt trong giá đỡ máy chủ công suất cao
- Theo nguồn tin nội bộ, các GPU này gặp vấn đề khi sử dụng trong máy chủ chứa 72 bộ xử lý, với mức tiêu thụ điện lên đến 120kW mỗi giá đỡ
- Nvidia đã phải nhiều lần đánh giá lại thiết kế giá đỡ máy chủ do tình trạng quá nhiệt ảnh hưởng đến hiệu suất GPU và có nguy cơ gây hỏng linh kiện
- Công ty đã yêu cầu các nhà cung cấp thực hiện nhiều thay đổi về thiết kế để khắc phục vấn đề quá nhiệt
- Trước đó, Nvidia đã phải trì hoãn sản xuất Blackwell do lỗi thiết kế ảnh hưởng đến năng suất
- GPU B100 và B200 sử dụng công nghệ đóng gói CoWoS-L của TSMC để kết nối hai chiplet, hỗ trợ tốc độ truyền dữ liệu lên đến 10 TB/giây
- Sự không phù hợp về đặc tính giãn nở nhiệt giữa các chiplet GPU, cầu nối LSI và các thành phần khác dẫn đến biến dạng và lỗi hệ thống
- Phiên bản cuối cùng của GPU Blackwell mới bắt đầu sản xuất hàng loạt vào cuối tháng 10/2023
- Các khách hàng lớn như Google, Meta và Microsoft sử dụng GPU của Nvidia để huấn luyện các mô hình ngôn ngữ lớn mạnh nhất
📌 GPU Blackwell của Nvidia gặp khủng hoảng quá nhiệt với mức tiêu thụ 120kW/giá đỡ, buộc phải thiết kế lại nhiều lần và trì hoãn sản xuất từ tháng 10/2023, ảnh hưởng nghiêm trọng đến kế hoạch của các khách hàng lớn như Google, Meta, Microsoft.
https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers