Optuna

Deep RL 中有一个重要的任务是找到好的训练超参数。库Optuna 帮助自动化这个搜索。

自动化超参数微调

什么是超参数：是需要手动设置参数，不会通过学习算法本身进行优化，不模型内部的参数不同，超参数是需要在模型开始训练前就设定好。

在强化学习中，常见的超参数包括：

为什么要搜索超参数？超参数的选择对强化学习算法的性能有很大影响。不同的超参数值可能导致算法收敛速度、稳定性和最终性能的显著差异。

常见超参数搜索方法：Manual Search，Grid Search, Random Search, Bayesian Optimization，Evolutionary Algorithms, 模拟退火等随机性算法。

自动超参数微调的组件: Sampling && Schedular，

在搜索空间中搜索最优解的问题。

给定一个搜索空间（也称为解空间或状态空间）和一个目标函数（也称为适应度函数或成本函数），目标是在搜索空间中找到使目标函数达到最大值（或最小值）的解。

本质上是一个优化问题 (Optimization Problem)。

优化问题可表示为：

maximize f(x)   或   minimize f(x)
subject to x ∈ S

x属于搜索空间，找到一个x使得目标函数最大化或最小化。

常见解法：

有一个平衡 trade-off，“N vs B/n trade-off”