• Alibaba đã công bố thiết kế trung tâm dữ liệu mới dùng để huấn luyện mô hình ngôn ngữ lớn (LLM), sử dụng mạng dựa trên Ethernet.
• Mỗi máy chủ trong hệ thống chứa 8 GPU và 9 NIC, mỗi NIC có 2 cổng 200 GB/giây.
• Thiết kế này đã được sử dụng trong sản xuất trong 8 tháng, nhằm tối đa hóa khả năng PCIe của GPU và tăng dung lượng gửi/nhận của mạng.
• Alibaba sử dụng NVlink cho mạng nội bộ trong máy chủ, cung cấp băng thông lớn hơn giữa các máy chủ.
• Mỗi cổng trên NIC được kết nối với một switch đầu giá khác nhau để tránh điểm lỗi đơn lẻ, một thiết kế mà Alibaba gọi là "rail-optimized".
• Mỗi pod chứa 15.000 GPU và có thể được đặt trong một trung tâm dữ liệu duy nhất.
• Alibaba phát triển kiến trúc mạng mới này do các mô hình lưu lượng trong đào tạo LLM khác với điện toán đám mây thông thường, với lưu lượng entropy thấp và bùng nổ.
• Công ty tự thiết kế và tạo ra bộ tản nhiệt buồng hơi riêng, cùng với việc sử dụng nhiều cột bấc hơn ở trung tâm chip để tản nhiệt hiệu quả hơn.
• Giải pháp làm mát này giúp duy trì nhiệt độ chip dưới 105°C, ngưỡng mà các switch bắt đầu tắt.
• Mỗi tòa nhà trung tâm dữ liệu của Alibaba Cloud có giới hạn công suất tổng thể là 18MW, có thể chứa khoảng 15.000 GPU.
• Thiết kế này cho phép mỗi tòa nhà chứa một pod hoàn chỉnh, với phần lớn các liên kết nằm trong cùng một tòa nhà.
• Alibaba cũng cung cấp một trong những mô hình ngôn ngữ lớn tốt nhất thông qua mô hình Qwen của họ, được đào tạo trên 110 tỷ tham số.
📌 Alibaba đã phát triển một thiết kế trung tâm dữ liệu tiên tiến cho việc huấn luyện LLM, với mạng Ethernet tùy chỉnh và 15.000 GPU mỗi pod. Giải pháp làm mát độc đáo và kiến trúc mạng mới giúp tối ưu hóa hiệu suất và khả năng mở rộng cho đào tạo AI quy mô lớn.
https://www.techradar.com/pro/website-hosting/alibaba-unveils-its-network-and-datacenter-design-for-large-language-model-training