Dự án Rainier của Amazon: Siêu cụm AI khổng lồ dành cho Anthropic

9590

Amazon Web Services (AWS) đang tiến mạnh vào lĩnh vực AI với Dự án Rainier, một cụm siêu máy tính đồ sộ được thiết kế để hỗ trợ Anthropic, đối tác xây dựng mô hình AI của họ. Dự án đầy tham vọng này nhằm mang lại cho Anthropic lợi thế cạnh tranh đáng kể trong lĩnh vực AI đang phát triển nhanh chóng.

Giới thiệu Dự án Rainier: Quy mô và Phạm vi

Dự án Rainier, dự kiến ra mắt vào cuối năm nay, sẽ sở hữu “hàng trăm nghìn” bộ gia tốc phân bố trên nhiều địa điểm tại Mỹ. Một địa điểm tại Indiana, như Gadi Hutt từ Phòng thí nghiệm Annapurna của Amazon tiết lộ, sẽ bao gồm ba mươi trung tâm dữ liệu rộng 200.000 feet vuông, tiêu thụ lượng điện năng khổng lồ lên tới 2,2 gigawatt.

Khác với các siêu máy tính AI khác như Stargate của OpenAI, Colossus của xAI hay Dự án Ceiba của AWS, Dự án Rainier sử dụng chip AI Annapurna của Amazon thay vì GPU. Theo Hutt, đây là lần đầu tiên Amazon xây dựng một cụm đào tạo quy mô lớn như vậy, cho phép Anthropic huấn luyện một mô hình duy nhất trên cơ sở hạ tầng rộng lớn này.

Cam kết của Amazon dành cho Anthropic là rất lớn, với khoản đầu tư hiện tại lên tới 8 tỷ USD vào đối thủ cạnh tranh của OpenAI.

Dự án Rainier: Tính năng chính và Kiến trúc

Trong khi Amazon vẫn giữ kín về toàn bộ phạm vi dự án, Anthropic đã được tiếp cận một phần tài nguyên máy tính của nó.

Trainium2: Trái tim của Rainier

Trái tim của Dự án Rainier là bộ gia tốc Trainium2 từ Phòng thí nghiệm Annapurna. Bất chấp tên gọi, Trainium2 hỗ trợ cả khối lượng công việc đào tạo và suy luận, khiến nó phù hợp cho các ứng dụng học tăng cường (RL).

Mỗi bộ gia tốc Trainium2 bao gồm hai chip xử lý 5nm, cùng với bốn ngăn bộ nhớ băng thông cao (HBM), mang lại hiệu suất FP8 dày đặc 1,3 petaFLOPS, 96GB HBM và băng thông bộ nhớ 2,9TB/s.

Phiên bản Trn2: Khối xây dựng của cụm

Các phiên bản Trn2 của AWS, cấu hình tối thiểu cho Trainium2, có 16 bộ gia tốc. Hutt nhấn mạnh tầm quan trọng của “thông lượng đào tạo tốt” và tối thiểu hóa thời gian ngừng hoạt động khi đánh giá các cụm lớn.

Mỗi cụm Trn2 bao gồm tám lưỡi tính toán (mỗi lưỡi có hai Trainium2), được quản lý bởi một cặp CPU Intel x86. Khác với cấu trúc liên kết all-to-all chuyển mạch trong NVL72 của Nvidia, các cụm Trn2 sử dụng cấu trúc xuyến 4×4 2D bằng cách sử dụng kết nối NeuronLink v3 của AWS, cung cấp băng thông chip-to-chip 1TB/s.

UltraServers: Mở rộng tính toán

Bốn hệ thống Trn2 có thể được kết hợp bằng NeuronLink để tạo thành một UltraServer, mở rộng phạm vi tính toán lên 64 chip trong cấu hình xuyến 3D. Mỗi bộ gia tốc trong cụm được trang bị băng thông mạng 200Gbps thông qua các đơn vị xử lý dữ liệu Nitro của Annapurna.

Mạng EFAv3 tùy chỉnh của Amazon được thiết kế để cung cấp hàng chục petabit băng thông với độ trễ dưới 10 micro giây trên toàn mạng.

Dự án Rainier: Quy mô và Công suất

Amazon đặt mục tiêu đạt được quy mô khổng lồ với Dự án Rainier, có thể lên tới hàng trăm nghìn chip Trainium2. Mặc dù con số chính xác chưa được tiết lộ, ngay cả 10.000 UltraServers cũng tương đương với 640.000 bộ gia tốc.

Giả sử mức tiêu thụ điện năng khoảng 500 watt mỗi chip, một cụm 256.000 bộ gia tốc Trainium2 có thể yêu cầu từ 250 đến 300 megawatt điện.

Khả năng trong tương lai: Trainium3 và hơn thế

Trong khi Dự án Rainier hiện dựa trên Trainium2, các bộ gia tốc thế hệ thứ ba sắp tới, được xây dựng trên quy trình 3nm của TSMC, có thể được tích hợp vào dự án.

Nhóm Phòng thí nghiệm Annapurna đã hé lộ về việc cải thiện hiệu suất 40% với Trainium3, cùng với mức tăng hiệu suất gấp 4 lần so với các hệ thống dựa trên Trn2.

Kết luận

Dự án Rainier thể hiện khoản đầu tư đáng kể của Amazon vào cơ sở hạ tầng AI, cho thấy cam kết của công ty trong việc hỗ trợ Anthropic và đẩy giới hạn của việc đào tạo mô hình AI. Khi dự án tiến triển, chắc chắn sẽ có thêm nhiều chi tiết về quy mô, hiệu suất và khả năng tích hợp các công nghệ tương lai.

Từ khóa: Amazon, AWS, Anthropic, AI, Siêu máy tính, Dự án Rainier, Trainium2, Trainium3, Máy học, Học sâu, Điện toán đám mây

Content