DeepSeek-R1：基于强化学习的大语言模型推理能力激励方法

发布于 2026-2-1 • 作者: DeepSeek-AI

介绍

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning的阅读笔记

笔记

notes notes notes

探索主题

算法 MLAI 计算机架构 Rust 记录操作系统编程范式商业网络统计 k8s 数据库风格编译器 C++Go 分布式阅读设计