Project Rainier(Trainium2 기반)는 NVIDIA Blackwell 클러스터와 비교해 훈련 효율·비용 우위로 Anthropic Claude 최적화됐다.
상세 비교 분석
1. 컴퓨팅 성능
- Rainier UltraServer: 64x Trainium2 = 332 PFLOPS (sparse FP8, 훈련 특화).
- DGX GB200 NVL72: 72x Blackwell = 720 PFLOPS (dense FP8 우위, 추론 강점).
- 결과: 훈련 워크로드에서 Rainier 1.5배 효율, sparsity 지원 우위.
2. 메모리·대역폭
- Rainier: 6.1TB HBM, 186TB/s BW (UltraCluster 12.8Tbps EFA).
- Blackwell: 13.4TB HBM, 576TB/s BW (InfiniBand 28.8Tbps).
- 결과: Blackwell 추론 우위, Rainier 훈련 병목 최소화.
3. 규모·전력
- Rainier: 25.6만 칩, 250-300MW (세계 최대 비-Nvidia).
- xAI Colossus: 20만 H100, 150MW.
- 효율: 칩당 500W, 물 사용량 50% ↓.
4. 비용·TCO
- Trainium2: H100 대비 30-40% 저렴, Anthropic TCO 50% 절감.
- Claude 3.5: 60% 빠른 훈련.
강점·약점
Rainier 우위: 훈련 특화, 비용 효율, Nvidia 공급망 독립.
Blackwell 우위: 추론·범용성, 소프트웨어 생태계.
Rainier는 AWS Trainium 생태계 확장의 테스트베드다.
NVIDIA Blackwell(B200)은 단일 칩 연산력에서 우위지만, Trainium2는 훈련 특화 효율·비용으로 Anthropic 등에서 채택 확대됐다.
상세 비교
1. 연산 성능
- Blackwell B200: 5 PFLOPS FP8 (dense), 범용 훈련·추론 최적.
- Trainium2: 1.3 PFLOPS FP8 (sparse), LLM 훈련 40% 효율 ↑.
- 결과: Blackwell 3.8배 FLOPS 우위, Trainium sparsity 워크로드 1.5배 빠름.
2. 메모리·대역폭
- Blackwell: 192GB HBM3e, 8TB/s BW.
- Trainium2: 96GB HBM3, 2.9TB/s BW.
- 결과: Blackwell 추론 강점, Trainium 대규모 배치 훈련 적합.
3. 에너지·비용 효율
- Trainium2: 500W, H100 대비 30-40% 비용 ↓, TCO 50% 절감.
- Blackwell: 1,000W, 고성능 프리미엄 가격.
- Claude 3.5 벤치: Trainium2 60% 빠른 훈련.
4. 소프트웨어 생태
- CUDA: 범용·광범위 라이브러리.
- Neuron SDK: AWS 최적화, Anthropic 전용.
워크로드별 우위
- 훈련 (LLM): Trainium2 우위 (비용·효율).
- 추론·범용: Blackwell 우위 (FLOPS·메모리).
AWS Trainium은 Nvidia 대체로 성공적이나, CUDA 생태계 격차가 과제다.
NVIDIA Blackwell(B200)은 추론에서 절대적 성능 우위를 보이지만, Trainium2는 AWS 생태계 내 가격·에너지 효율로 경쟁한다.
스펙 비교
| 항목 | Blackwell B200 | Trainium2 |
|---|---|---|
| 공정 | 4nm | 5nm |
| FP8 TFLOPS | 20 (dense), 40 (sparse) | 1,300 (sparse) |
| HBM 메모리 | 192GB HBM3e | 96GB HBM3 |
| 메모리 BW | 8TB/s | 2.9TB/s |
| 전력 | 1,000W | 500W |
| NVLink/EFA | 1.8TB/s | 1.25TB/s |
추론 성능 벤치마크
1. 토큰 처리량 (Llama 405B)
- Blackwell: 2배 (H100 대비), 초당 10,000+ 토큰.
- Trainium2: H100 1.5배, Bedrock Latency-optimized 40% ↑.
2. 지연 시간 (RAG)
- Blackwell: FP4 지원으로 2배 낮음.
- Trainium2: Claude Haiku 54% 비용 ↓, 60% 지연 감소.
3. 비용 효율 (토큰당)
- Trainium2: H100 대비 40~50% 절감.
- Blackwell: 프리미엄 성능, TCO 20% ↑.
워크로드별 우위
- 고밀도 추론: Blackwell (FP4·대용량 메모리).
- 비용 민감: Trainium2 (Bedrock 최적화).
- Anthropic 사례: Trainium2 Claude 3.5 50% TCO 절감.
Blackwell은 범용 추론 리더, Trainium2는 AWS 특화 비용 경쟁자다.