策略搜索

更新时间:2023-01-06 23:39

策略搜索指的是深度学习中利用广度优先搜索、深度优先搜索等策略来进行数据搜索的过程。

树的搜索策略

广度优先搜索(BFS)

使用队列(Queue)

深度优先搜索(DFS)

使用栈(Stack)

最佳优先搜索

结合了深度优先搜索和广度搜索的优点,使用堆:

策略搜索算法

为了得到状态转化的方程,构建了函数St+1 = ASt + Bat + wt,我们重点讲解了如何得到拟合系数的过程,但为了解决POMDPs问题,由于其是一个NP-hard问题,我们不能通过计算获得拟合的系数,此时我们通过策略搜索算法获得求解。

在策略搜索算法中,我们提出两个新的定义:

(1)我们定义一个策略集Π作为所有可能集合的合集,我们通过对集合Π进行搜索,找到其中可以获得最优结果的策略π(这一思想类似于我们在监督学习中定义将涉及H的过程,我们在H中搜索最优的假设函数h使监督学习产生的误差最小)

(2)一个随机策略是一个由状态和策略到一个实数的影响,即π:S*A->R,其中π(s, a)表示在状态s下执行动作a的概率,故Σπ(s, a)=1, π(s,a)≥0。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}