MudSynth

近端策略优化—PPO

在强化学习中，传统策略梯度算法如同一个不知疲倦的马拉松跑者——每调整一次步伐就要重新跑完全程收集数据，95%的训练时间消耗在重复采样上。PPO的突破性在于它教会AI「聪明地复用经验」：通过**重要性采样**的数学魔法，将历史交互数据转化为新策略的养分，让每次策略更新都能多次利用旧数据；而创新的**Clipping机制**则像给AI系上安全带，通过限制新旧策略的差异幅度，在「大胆探索」与「稳定迭代」间找到精妙平衡。本文将从策略梯度的基础出发，揭秘PPO如何通过GAE算法优化优势估计、用Clip函数实现策略更新的黄金法则，最终成为ChatGPT等大模型对齐任务中的核心训练引擎，让机器学会在「吃老本」时不翻车、在「长记性」时更高效。

2025-02-23

从零开始了解LLaMA：开源大语言模型的架构解析

你是否好奇LLaMA是如何工作的？它与其他LLM相比有何优势？在这篇博客中，我们将结合代码深入浅出地解析LLaMA的整体架构，带你从零开始了解这一强大的语言模型。我们将探讨LLaMA的模型结构，帮助你全面理解LLaMA的运作机制，并为你开启探索LLM世界的大门。

2025-02-02

【论文笔记】AWQ

• 文章名称：AWQ:Activation-aware Weight Quantization for LLM Compression and Acceleration
• 发表会议/年份：MLSys 2024
• 作者：Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang
• 单位：MIT, SJTU, NVIDIA, Tsinghua MIT-IBM, UMass

2025-01-06