→
返回主页
MLAI
分布式
阅读
可扩展智能体系统相关汇总
发布于
2026-1-11
•
作者: Ethan
阅读内容
AI system
关于评估大语言模型(LLM)推理系统性能
数据中心即计算机(一、二章节)
机器学习集群效率:使用 ML 生产力吞吐量分析与优化大规模 Google TPU 系统
The Illustrated Transformer
OpenHands:面向 AI 软件开发者的通用代理开放平台
Distributed training
基于 Megatron-LM 的 GPU 集群上高效大规模语言模型训练
Pre-train
WLB-LLM:用于大语言模型训练的工作负载均衡4D 并行方案
零气泡流水线并行
Alpa:用于分布式深度学习的算子间与算子内并行自动化
FSMoE:一种用于稀疏混合专家模型的灵活且可扩展的训练系统
TrainVerify:基于等价性的分布式大语言模型训练验证方法
Oobleck:大模型分布式训练的容错革命
AReaL:用于语言推理的大规模异步强化学习系统
DeepSeek-R1:基于强化学习的大语言模型推理能力激励方法
Post-train
Inference
Agent System
Parrot:通过语义变量高效服务基于 LLM 的应用
Pie:面向新兴 LLM 应用的可编程服务系统
METIS:具备配置自适应能力的快速高质量感知 RAG 系统
Hardware infra
Power and energy mngm
探索主题
编程范式
算法
编译器
设计
统计
操作系统
MLAI
Rust
数据库
阅读
C++
计算机架构
k8s
记录
分布式
风格
网络
Go