13log
HOME
ARCHIVES
TOPICS
Publications
Open Source
Notes Share
Tech Share
Life Share
ABOUT
Categories - Notes
16 posts in total
2025
12-21
DPO——直接偏好优化算法
12-15
PPO——近端策略优化算法
12-14
AlphaGomoku——MCTS算法与五子棋
12-10
DQN——Deep Q-Learning算法
12-09
Q-Learning——一种基于值迭代的强化学习算法
12-08
Reinforcement Learning——RL系列目录
1
2
Blog works best with JavaScript enabled