近端策略优化—PPO

在强化学习中,传统策略梯度算法如同一个不知疲倦的马拉松跑者——每调整一次步伐就要重新跑完全程收集数据,95%的训练时间消耗在重复采样上。PPO的突破性在于它教会AI「聪明地复用经验」:通过**重要性采样**的数学魔法,将历史交互数据转化为新策略的养分,让每次策略更新都能多次利用旧数据;而创新的**Clipping机制**则像给AI系上安全带,通过限制新旧策略的差异幅度,在「大胆探索」与「稳定迭代」间找到精妙平衡。本文将从策略梯度的基础出发,揭秘PPO如何通过GAE算法优化优势估计、用Clip函数实现策略更新的黄金法则,最终成为ChatGPT等大模型对齐任务中的核心训练引擎,让机器学会在「吃老本」时不翻车、在「长记性」时更高效。

LLM

从零开始了解LLaMA:开源大语言模型的架构解析

你是否好奇LLaMA是如何工作的?它与其他LLM相比有何优势?在这篇博客中,我们将结合代码深入浅出地解析LLaMA的整体架构,带你从零开始了解这一强大的语言模型。我们将探讨LLaMA的模型结构,帮助你全面理解LLaMA的运作机制,并为你开启探索LLM世界的大门。

LLM

【论文笔记】AWQ

• 文章名称:AWQ:Activation-aware Weight Quantization for LLM Compression and Acceleration
• 发表会议/年份:MLSys 2024
• 作者:Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang
• 单位:MIT, SJTU, NVIDIA, Tsinghua MIT-IBM, UMass

LLM

【论文笔记】Re-ranking

• 文章名称:Re-ranking Person Re-identification with k-reciprocal Encoding
• 发表会议/年份:CVPR 2017
• 作者:Zhun Zhong, Liang Zheng, Donglin Cao, Shaozi Li
• 单位:Cognitive Science Department, Xiamen University, China / University of Technology Sydney / Fujian Key Laboratory of Brain-inspired Computing Technique and Applications, Xiamen University

ReID

【论文笔记】IDKL

• 文章名称:Implicit Discriminative Knowledge Learning for Visible-Infrared Person Re-Identification
• 发表会议/年份:CVPR 2024
• 作者:Kaijie Ren, Lei Zhang
• 单位:School of Microelectronics and Communication Engineering, Chongqing University, China

ReID

【论文笔记】DNDM

• 文章名称:Day-Night Cross-domain Vehicle Re-identification
• 发表会议/年份:NeurIPS 2023
• 作者:Hongchao Li, Jingong Chen, Aihua Zheng, Yong Wu, Yonglong Luo
• 单位:Anhui Normal University, Anhui University

ReID

【论文笔记】DEEN

• 文章名称:Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for Visible-Infrared Person Re-identification
• 发表会议/年份:CVPR 2023
• 作者:Yukang Zhang, Hanzi Wang
• 单位:Fujian Key Laboratory of Sensing and Computing for Smart City,School of Informatics, Xiamen University, 361005, P.R. China.2Key Laboratory of Multimedia Trusted Perception and Efficient Computing,Ministry of Education of China, Xiamen University, 361005, P.R. China.3Shanghai Artificial Intelligence Laboratory, Shanghai, 200232, China.

ReID

【论文笔记】AUL

• 文章名称:Adaptive Uncertainty-Based Learning for Text-Based Person Retrieval
• 发表会议/年份:AAAI 2024
• 作者:Shenshen Li, Chen He, Xing Xu*, Fumin Shen, Yang Yang, Heng Tao Shen
• 单位:School of Computer Science and Engineering and Center for Future Media, University of Electronic Science and Technology of China, China

ReID

2024-09-26

DDPM 原理推导

• 文章名称:Denoising Diffusion Probabilistic Models
• 发表会议/年份:NeurIPS 2020
• 作者:Jonathan Ho, Ajay Jain, Pieter Abbeel
• 单位:UC Berkeley

Diffusion
12

本站由 @anonymity 使用 Stellar 主题创建。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。