13log
  • HOME
  • ARCHIVES
  • TOPICS
    Publications Open Source Notes Share Tech Share Life Share
  • ABOUT
Tags - Algorithm

11 posts in total


2026

01-03
GDPO——分组奖励解耦归一化策略优化算法

2025

12-29
SAPO——软自适应策略优化算法
12-28
GSPO——序列级策略优化算法
12-27
DAPO——动态采样策略优化算法
12-25
GRPO——组相对策略优化算法
12-21
DPO——直接偏好优化算法
12-15
PPO——近端策略优化算法
12-14
AlphaGomoku——MCTS算法与五子棋
12-10
DQN——Deep Q-Learning算法
12-09
Q-Learning——一种基于值迭代的强化学习算法
12
© 2025 13 Lab. All Rights Reserved.
Views: Visitors: