DPO——直接偏好优化算法引言: 直接偏好优化算法(DPO)是一种新的参数化方式,能够以闭式解的形式提取相应的最优策略,使仅通过简单的分类损失就能解决标准的RLHF问题。它稳定、高效且计算量小,无需在微调过程中从语言模型中进行采样,也不需要进行大量的超参数调整。我们的实验表明,DPO能够对语言模型进行微调,使其与人类偏好保持一致,效果达到甚至优于现有方法。值得注意的是,使用DPO进行微调在控制生成 2025-12-21 Notes > Reinforcement Learning #Research #Algorithm #DPO
PPO——近端策略优化算法引言: 近端策略优化(PPO)是一种新的强化学习策略梯度方法,该方法通过与环境交互采样数据和使用随机梯度上升优化“替代”目标函数来交替进行。标准的策略梯度方法每个数据样本执行一次梯度更新,PPO提出了一种新的目标函数能够实现多轮小批量更新,它具备信任区域策略优化(TRPO)的部分优势,但实现起来更为简单、适用性更广,并且(从经验上看)具有更好的样本复杂度。实验结果表明PP 2025-12-15 Notes > Reinforcement Learning #Research #Algorithm #PPO #OpenAI
AlphaGomoku——MCTS算法与五子棋引言: 蒙特卡洛搜索树(Monte Carlo Tree Search, MCTS)是一种用于决策的搜索算法,广泛应用于游戏、人工智能等领域。本文将介绍 MCTS 的基本原理,并通过一个五子棋的项目来展示如何使用 MCTS 算法进行游戏决策。 📖 蒙特卡洛搜索树(MCTS) MCTS是什么? MCTS是一种用于决策过程的启发式搜索算法,最早在20 2025-12-14 Notes > Reinforcement Learning #Research #Algorithm #Project #MCTS #AlphaGo
DQN——Deep Q-Learning算法引言: DQN(Deep Q-Network)是一种基于深度学习的强化学习算法,它通过构建一个神经网络来估计状态-动作值函数(Q函数),从而实现智能体的决策过程。DQN算法的核心思想是通过不断与环境交互,学习到最优的Q函数,从而找到最优的策略。本文将介绍DQN算法的基本原理、实现方法。 ✈️ DQN算法介绍 算法归类 从分类体系上看,DQN 完美继 2025-12-10 Notes > Reinforcement Learning #Research #Algorithm #DQN
Q-Learning——一种基于值迭代的强化学习算法引言: Q-Learning是一种基于值迭代的强化学习算法,它通过不断更新Q值来优化策略。Q值表示在给定状态下采取某个动作的预期回报。Q-Learning算法通过最大化Q值来选择最优动作,从而实现最优策略的求解,下面有是Q-Learning算法介绍与井字棋游戏的实现。 ✈️ Q-Learning算法介绍 算法归类 从分类上来看,Q-Learning 2025-12-09 Notes > Reinforcement Learning #Research #Algorithm #Q-learning #TicTacToe
Reinforcement Learning——RL系列目录引言: 最近在研究强化学习,所以打算写一系列关于强化学习的文章(实时更新),包括Q-learning、DQN、MCTS、PPO、DPO、RLHF、GPRO等,这里是一些基础知识和后续文章的目录,可以在这里直接跳转你感兴趣的内容。 📖 RL系列文章目录 以后有关于强化学习的算法与文章都会在这里更新,目录如下: 1.Q-Learning——一种基于值 2025-12-08 Notes > Reinforcement Learning #Research #Algorithm
BlogShare——如何做好一个博客引言: 做一个好的博客对学习积累、知识分享、个人能力提升都有很大的帮助。同时也是监督自己不断进步的一种方式。本文将分享互联网上优秀的博客网站(实时更新),以及如何搭建一个属于自己的博客。 🌐优秀博客网站分享 技术大咖类 这里分享一些在技术领域非常优秀的博客网站,适合各个技术领域的人阅读。 阮一峰的网络日志 阮一峰老师是中文技术文章写作领域的大佬 2025-12-05 Tech > Info #Blog #Tool
GetPaperInfo——如何高效获取文信息引言: 在信息爆炸的今天,Research 的能力对于每个人都越来越重要。无论是为了学术研究,还是为了紧跟技术前沿,高效获取论文信息都是一项核心技能。本文整理了一套从“找论文”到“读论文”再到“审论文”的宝藏工具流,建议收藏备用!(实时更新) 🎯 我们要找哪些论文? 在打开搜索引擎之前,我们需要明确目标。不同的研究阶段,我们需要关注不同类型的论文 2025-12-03 Tech > Info #Research #Tools #Productivity
Hello World !引言: 这篇文章是我的第一篇博客,介绍博客定位、功能及示例。 本博客是使用 Hexo 框架搭建的,主题使用的是 Fluid ,同时参考了文章 Hexo配置与扩展 ,在此一同致谢所有开源作者! 博客介绍 在这里我会介绍博客的一些功能,比如公开发表物、开源项目、论文阅读、技术分享、生活记录等,我会持续更新,欢迎关注! 公开发表物 这里以后会发布一些公开 2025-12-01 Tech > Web #blog