Involution Hell

强化学习

强化学习在大模型时代发挥着重要作用,特别是在推理和对齐方面。从RLHF到思维链推理,强化学习为大模型的能力提升提供了关键技术支撑。

推荐学习资料

西湖大学赵世钰强化学习课程

课程特色: 强化学习的数学原理,从零开始到透彻理解

学习资源:

RethinkFun强化学习系列

推荐UP主: @RethinkFun

核心视频:

入门教程

  • 强化学习极简入门 - 通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO

强化学习项目论文(待筛选)

📊 论文筛选表格: 点击查看完整的强化学习论文待筛选列表

状态分类:未开始、评估中、已完成、不推荐、未开源

GRPO复现参考

TRL框架

思维链COT

核心概念

思维链推理是让大模型展示推理过程的重要技术,提高了模型的可解释性和推理能力。

重要论文与项目

CoT-Valve: Length-Compressible Chain-of-Thought Tuning

MCOT (Multi-Chain-of-Thought)

  • 项目: Awesome-MCoT
  • 特色: 多思维链推理,提升复杂推理任务性能

Latent CoT (潜在思维链)

  • 项目: Awesome-Latent-CoT
  • 核心理念: 将推理过程从语言符号转移到潜在空间中,捕捉更丰富和复杂的思维过程

多模态COT

结合视觉和文本信息的思维链推理,在多模态任务中展现强大能力。

潜空间推理综述

DEEPSEEK-R1解读

DeepSeek-R1作为推理能力突出的大模型,其技术细节值得深入研究:

  • 推理机制设计
  • 训练策略分析
  • 性能评估方法

学习路径建议

基础阶段

  1. 数学基础: 概率论、动态规划、优化理论
  2. 基本概念: MDP、值函数、策略、回报
  3. 经典算法: Q-learning、策略梯度、Actor-Critic

进阶阶段

  1. 现代算法: PPO、TRPO、SAC、TD3
  2. 大模型应用: RLHF、Constitutional AI
  3. 思维链技术: CoT、MCOT、Latent CoT

实践阶段

  1. 框架使用: OpenAI Gym、Stable Baselines3、TRL
  2. 项目实战: 游戏AI、对话系统优化
  3. 论文复现: 关键算法的复现与改进

应用领域

大模型对齐

  • RLHF: 从人类反馈中学习,提升模型输出质量
  • Constitutional AI: 基于原则的AI对齐方法
  • DPO: 直接偏好优化,简化RLHF流程

推理能力提升

  • 思维链推理: 提升复杂推理任务性能
  • 工具使用: 训练模型使用外部工具
  • 代码生成: 提升编程能力

多智能体系统

  • 协作学习: 多个智能体协同解决问题
  • 竞争学习: 通过竞争提升个体能力
  • 社会学习: 从其他智能体行为中学习

前沿趋势

  1. 离线强化学习: 从静态数据集中学习策略
  2. 元学习: 快速适应新任务的学习算法
  3. 安全强化学习: 确保学习过程和结果的安全性
  4. 可解释强化学习: 提升决策过程的可解释性

其他文档摘录


贡献者