Các chip Blackwell AI thế hệ tiếp theo của NVIDIA phải đối mặt với các vấn đề quá nóng nghiêm trọng khi được cài đặt trong các giá đỡ máy chủ công suất cao.Những vấn đề này đã dẫn đến những thay đổi và chậm trễ thiết kế, và đã gây lo ngại giữa các khách hàng như Google, Meta và Microsoft về việc triển khai kịp thời các máy chủ Blackwell.
Những người trong cuộc đã tiết lộ rằng GPU Blackwell của Nvidia có thể quá nóng khi được sử dụng trong các máy chủ có 72 chip.Các thiết bị này dự kiến sẽ tiêu thụ tới 120kW điện cho mỗi giá.Những vấn đề này đã buộc NVIDIA đánh giá lại thiết kế giá đỡ máy chủ của mình nhiều lần, vì quá nóng có thể hạn chế hiệu suất GPU và gây ra nguy cơ thiệt hại thành phần.Khách hàng lo ngại rằng những thất bại này có thể cản trở lịch trình của họ để triển khai các chip mới trong các trung tâm dữ liệu.
Theo báo cáo, NVIDIA đã hướng dẫn các nhà cung cấp của mình thực hiện nhiều thay đổi thiết kế cho giá để giải quyết các vấn đề quá nhiệt.Công ty hợp tác chặt chẽ với các nhà cung cấp và đối tác của mình để phát triển các sửa đổi kỹ thuật để cải thiện việc làm mát máy chủ.Mặc dù các điều chỉnh này là thông lệ tiêu chuẩn cho việc phát hành công nghệ quy mô lớn như vậy, nhưng chúng vẫn thêm sự chậm trễ và trì hoãn thêm ngày giao hàng dự kiến.
Theo báo cáo của First Financial, để đối phó với các vấn đề chậm trễ và quá nóng, người phát ngôn của NVIDIA tuyên bố: "Chúng tôi đang làm việc với các nhà cung cấp dịch vụ đám mây hàng đầu như một phần thiết yếu của nhóm kỹ thuật và quy trình của chúng tôi.GB200, hệ thống tiên tiến nhất cho đến nay, vào các môi trường trung tâm dữ liệu khác nhau đòi hỏi thiết kế chung với khách hàng của chúng tôi. "NVIDIA cũng tuyên bố rằng "khách hàng hiện đang nắm bắt cơ hội thị trường cho các hệ thống GB200.
Trước đây, NVIDIA đã phải hoãn sản xuất Blackwell do các khiếm khuyết về thiết kế trong năng suất chip.BLACKWELL B100 và B200 GPU của NVIDIA sử dụng công nghệ đóng gói TSMC COWOS-L để kết nối hai chip của họ.Thiết kế này bao gồm một lớp trung gian RDL với cầu LSI (Silicon ConnectionConnect) LSI, hỗ trợ tốc độ truyền dữ liệu lên tới 10TB/s.Việc định vị chính xác của các cầu LSI này là rất quan trọng để công nghệ hoạt động như mong đợi.Tuy nhiên, sự không phù hợp trong các đặc tính mở rộng nhiệt giữa các chip GPU, cầu LSI, các lớp xen kẽ RDL và chất nền bo mạch chủ đã dẫn đến sự cố bị cong vênh và thất bại của hệ thống.Để giải quyết vấn đề này, NVIDIA đã sửa đổi lớp kim loại hàng đầu và cấu trúc Bump của GPU Silicon để cải thiện độ tin cậy sản xuất.
Do đó, GPU NVIDIA Blackwell sửa đổi cuối cùng sẽ chỉ bắt đầu sản xuất hàng loạt vào cuối tháng 10, điều đó có nghĩa là NVIDIA sẽ có thể vận chuyển các chip này từ cuối tháng 1 năm sau.
Các khách hàng của NVIDIA, bao gồm các gã khổng lồ công nghệ như Google, Meta và Microsoft, sử dụng GPU NVIDIA để đào tạo các mô hình ngôn ngữ lớn mạnh mẽ nhất của họ.Sự chậm trễ của Blackwell AI GPU sẽ tự nhiên ảnh hưởng đến các kế hoạch và sản phẩm của khách hàng của NVIDIA.