Skip to content
  • ag亚娱集团官方网站
  • ag亚洲娱乐平台
  • ag亚游娱乐
  • 亚娱集团
logo

AG官网 | AG亚游娱乐 | AG亚娱集团官方网站 | AG亚洲娱乐平台

AG官网 邀请您体验 K8凯发
  • Home
  • ag亚洲娱乐平台
  • 88老虎机:强化学习——多臂老虎机问题
ag亚洲娱乐平台
2023-07-21

88老虎机:强化学习——多臂老虎机问题

强化学习——多臂老虎机问题

作者:oneraynyday

编译:Bot

编者按:无论有没有去过赌场,相信大多数人都不会对老虎机感到陌生。作为赌场里最常见的娱乐设备,老虎机不仅在现实中广受人们欢迎,它也频繁出现在电视电影乃至动画片中,连一些常见的APP里都有它的身影。

往机器里投入硬币后,玩家需要拉下拉把转动玻璃框中的图案,如果三个图案一致,玩家能获得所有累积奖金;如果不一致,投入的硬币就会被吞入累积奖金池。这个问题看似简单,但很多人也许都忽视了,其实它和围棋、游戏一样,也是个强化学习问题。

首先,我们要明确一点——老虎机问题是表格型解决方案工具的一种。之所以这么说,是因为我们可以把所有可能的状态放进一个表格中,然后让表格告诉我们需要了解的问题状态,继而为解决问题找出切实的解决方案。

单臂老虎机:只有一根侧面拉杆

假设我们有一台K臂老虎机,每根拉杆都能提供固定的一定数额的金钱,一次只能拉下一根拉杆,但我们不知道它们的具体回报是多少。在这个情景中,k根拉杆可以被视为k种不同的动作(action),拉下拉杆的总次数T是我们的总timestep。整个任务的目标是实现收益的最大化。

设在第 t 次拉下拉杆时,我们采取的动作是 A_t ,当时获得的回报是 R_t 。那么对于任意动作 a ,它的动作值(value) q_∗(a) 是:

这个等式表示的是无论何时,如果我们选择动作 a ,我们获得的实际回报就应该等于动作 a 的预期回报。

把上面这个句子再读三四遍,你觉得它行得通吗?如果我们事先已经知道拉下这个拉杆的最大收益是多少,那出于贪婪的目的,我们肯定每次都会选最好的动作,然后使最终回报最大化。但在强化学习问题中,贪婪算法并不一定等同于最优策略,这一步的贪婪可能会对下一步产生负面影响。

虽然很困难,但我们真的很想实现 q_∗(a) ,所以对于timestep t ,设 Q_t(a) 是 q_∗(a) 的近似值:

那么我们又该怎么获得 Q_t(a) ?

注:上文中的回报(reward)和动作值(value)不是同一个概念。回报指的是执行动作后的当场回报,动作值是一个长期的回报。如果你吸毒了,一小时内你很high,回报很高,但长期来看,你获得的动作值就很可怕了。需要注意的是,因为老虎机只需要一个动作,所以这里的 q_∗(a) 不是未来回报之和,只是期望回报,它和其他地方的 q_∗(a) 也不一样(虽然有滥用符号之嫌,但还是请多包涵啦)。

函数 Q_π(x, a) 表示从状态 x 出发,执行动作 a 后再使用策略 π 带来的累计奖赏,称为“状态-动作值函数”(state-action value function)。——周志华《机器学习》

首先,我们需要估计动作值,再据此决定要采取的行动。

估算动作值

求解 q_∗(a) 近似值的一种简单方法是使用样本平均值:

上述等式看起来好像有什么说法,但它其实很简单——选择动作 a 时,我们获得的平均回报是多少。这个均值可以被视为 q_∗(a) 的近似值,因为换几个符号,我们就能发现这就是强大数定律(SLLN)的表达式。

换句话说,它意味着 Q_t(a) 必须收敛于 q_∗(a) :

比起概率收敛,这种收敛更强大,但它其实也没法保证 Q_t(a) 一定能收敛。

动作选择规则:贪婪

“贪婪者总是一贫如洗。”当面对巨大诱惑时,一些人会因为贪婪越过自己的底线,去吸毒,去犯罪,但他们在获得短暂快感的同时也失去了更多东西。强化学习中同样存在类似的问题,如果它是贪婪的,它会找出迄今为止最大的动作值:

并依据这个动作值去选择每一步动作。这样做的后果是智能体从头到尾只会选择同一套动作,而从不去尝试其他动作,在很多情况下,这样的策略并不是最优策略。

动作选择规则:ϵ-Greedy

那么我们该怎么纠正它的贪婪?之前我们在《强化学习——蒙特卡洛方法介绍》一文中已经介绍过 ε-greedy :对于任何时刻 t 的执行exploration小概率 ε<1 ,我们会有 ε 的概率会进行exploration,有 1-ε 的概率进行exploitation。这可以简单理解成抛硬币,除了正面和反面,它还有一个极小的立起来的概率。

虽然当智能体“头脑发热”时,它还是会义无反顾地贪婪,但相比贪婪策略, ϵ-greedy 随机选择策略(不贪婪)的概率是 \frac{ε}{|A(s)|} 。

导致这种现象的主要原因是动作值会随时间推移发生变化,即之前我们研究的是静态的拉杆,而不是随机的、动态的拉杆。以动作值为例,比起我们之前假设的 q_∗(a) ,它更应该被表示成 q_∗(a, t) 。

依据之前的动作值估计,我们有:

它也可以被写成:

看起来SGD可以在这里发挥一些作用。如果它是平稳的,那 q_∗(a) 收敛的概率就是100%;如果它不平稳,我们一般不希望 R_n=R_{n-1} ,因为当前回报会影响当前的动作值。

这里我们把权重 \frac{1}{n} 替换成 α(α∈(0,1]) :

这是一个指数平均值,它在几何上衰减之前回报的权重。设函数 α_n(a) 是第 n 个timestep,也就是第 n 次拉下拉杆时某个特定回报的权重。因为老虎机问题只需考虑动作 a ,所以这个函数也可以简化成 α(a) 。

88老虎机:强化学习——多臂老虎机问题

为了保证上式能收敛,我们还需要一些其他条件。

条件一

上式表示对于任何初始值 Q_1∈ℜ ,它都满足 q_∗(a)∈ℜ 。这个条件要求保证timestep足够大,以最终克服任何初始条件或随机波动

条件二

这个式子表示这些timestep将“足够小以确保能收敛到一个小值”。简而言之,第二个条件保证最终timestep会变小,以保证收敛。

既然如此,我们之前为什么要设 α_n(a)=α∈(0,1] 呢?它不是一个常数吗?这样的阈值会不会影响收敛?

这些猜想都是正确的,但 (0,1] 这个阈值也有它存在的价值。我们在之前的 Q_{n+1}=Q_n+α_n(R_n+Q_n) 上继续计算,最后可以获得一项 α(1-α)_{n-i}R_i ,因为 α 小于1,所以给予 R 的权重随着介入奖励次数的增加而减少。

最佳动作值时非平稳的,我们不想收敛到一个特定的价值。

到目前为止,我们必须随机设定 Q_1(a) 的初始值,它本质上是一组用于初始化的超参数。这里有个小诀窍,我们可以设初始值 Q_1(a)=C∀a ,其中 C>q_∗(a)∀a 。

这样之后,因为 Q_n(a) 偏高,这时智能体会积极探索其他动作,当它越来越接近 q_∗(a) 时,智能体就开始贪婪了。换句话说,假设我们设当前拉杆的乐观回报是3,但它实际上最高能获得的回报只有2.5,智能体尝试一次后,发现回报只有1,低于乐观值,于是它会把其他拉杆全部尝试一遍。虽然前期效率很低,但到后期,智能体已经掌握哪些拉杆会产生高值,效果就接近“贪婪”了。

这种方法是可行的,在某种程度上,如果时间充裕,这个过程也可以被看作是模拟退火。但从整体来看,乐观初始值前期的大量“exploration”是不必要的,它对于非平稳问题来说不是最好的答案。

在机器学习系统中,Bias与Variance往往不可兼得:如果要降低模型的Bias,就一定程度上会提高模型的Variance;如果要降低Variance,Bias就会不可避免地提高。针对两者间的trade-off,下面的式子是一个很好的总结:

其中,

  • R(f) 是假设 f 的(理论上)的风险;
  • R(f*) 是在假设集 H 中,假设 f 的最小风险;
  • M 是假设集 |H| 的大小;
  • N 是其中的样本数;
  • δ 是一个常数(如果非要知道这个常数是什么,只能说它是我们选择一个差的假设的概率)。

这里有两个重点:

  1. 样本数量非常少,我们的边界非常松散。我们不知道目前的假设是否是最好的假设。
  2. 我们的假设越大,PAC(近似正确)学习的约束就越松散。

置信上限(UCB)是一个非常强大的算法,它可以用类似Bias-Variance权衡的方法来解决不同的问题。在老虎机问题中,我们可以把timestep t 当成假设集大小 M ,因为随着t逐渐增加, a_n 也会逐渐增加,相应的 A_t 就很难选择。

每选一次 a ,不确定项就会减少,分母 N_t(a) 增加;另一方面,每一次选择了 a 以外的动作, t 会增加但 N_t(a) 不会改变,不确定评估值会增加。

截至目前,我们一直在努力估计 q_∗(a) ,但如果说这个问题还有除了行动值以外的解决方法呢?比如我们该如何学习一个动作的偏好?

设动作偏好为 H_t(a) ,它和回报无关,只是一个动作相对于另一个动作的重要性。那么 A_t 应该符合gibbs分布(也就是机器学习的softmax分布):

对于这个式子,我们该怎么基于梯度计算最大似然估计?首先,我们对 H_t(a) 做梯度上升,因为它是我们的变量。我们想最大化 E(R_t) :

H_t(a) 的更新规则如下所示:

gibbs分布分解:

这只是整个梯度的一个偏导数。那么 b≠a 的动作呢?下面是省略计算过程的结果:

由此可得:

因为:

相应的,这个等式也是成立的:

由上述等式可得:

因为 q_∗(a,t) 被包含在动作a的预期值内,它也可以被写成 R_t 。现在就只剩一个问题了:等式里的 X_t 是什么?坦率地说,你想它是什么它就是什么,严谨起见,我们可以把 X_t 当成 R_t 的平均值。

计算梯度后获得新的更新规则:

其中 a 是 t 时采取的动作。由于找到 a 的期望值 E_a 很困难,我们可以用随机值来更新:

选择动作的简单方法是计算 argmax_aπ_t(a) ,问题就解决了。

下面是上述算法的一个比较图:

88老虎机

88老虎机

尽管简单的方法表现不太好,但对很多强化学习问题来说,它们也称得上是最先进的算法了。

相关文章 :

  • 2oCP0juz44
    88老虎机:强化学习——多臂老虎机问题
  • 4md64wY5
    88老虎机:强化学习——多臂老虎机问题
  • wHDnXjMzLk
    99真人娱乐:​888真人首页
ag亚洲娱乐平台

文章导航

Previous Post
Next Post
zhuce1
新会员奖金 $5

最新文章

  • 畅玩白菜游戏视频:带你领略游戏的乐趣与技巧
  • 深入分析PC28走势在线预测,揭秘神测预测飞飞的成功秘诀
  • 探索澳门威尼克斯人官网网址的精彩世界
  • 探索百丽宫网址:尽享精彩娱乐与优惠活动
  • 澳门彩民之家app下载官网最新版本:畅享便捷购彩体验

分类

  • ag亚娱集团官方网站
  • ag亚洲娱乐平台
  • ag亚游娱乐
  • 亚娱集团

相关文章 :

  • 88老虎机:强化学习——多臂老虎机问题
  • 88老虎机:强化学习——多臂老虎机问题
  • 99真人娱乐:​888真人首页
2025 年 9 月
一二三四五六日
1234567
891011121314
15161718192021
22232425262728
2930 
« 6 月    

ag亚娱集团官方网站 ag亚洲娱乐平台 ag亚游娱乐 亚娱集团

AG官网 | AG亚游娱乐 | AG亚娱集团官方网站 | AG亚洲娱乐平台

AG官网 邀请您体验 K8凯发

AG亚娱集团的特点

AG亚娱集团以其独特的特点和丰富的娱乐内容而备受瞩目。以下是AG亚娱集团的几个重要特点:

多样化的娱乐项目:AG亚娱集团提供广泛的娱乐项目,涵盖在线游戏、体育博彩、真人娱乐等各种娱乐形式。无论你对哪种类型的娱乐感兴趣,都能在AG亚娱集团找到适合你的项目。

优质的游戏体验:AG亚娱集团致力于提供优质的游戏体验。他们与顶级的软件开发商合作,确保游戏的画面质量、音效和流畅性达到最高标准。无论你是玩电子游戏、棋牌游戏还是真人游戏,AG亚娱集团都能给你带来极致的娱乐享受。


安全可靠的平台:AG亚娱集团注重用户的安全和隐私保护。他们采用先进的加密技术和安全措施,确保用户的个人信息和资金安全。用户可以放心地在AG亚娱集团平台上进行游戏和交易,享受安全可靠的娱乐体验。


专业的客户服务:AG亚娱集团提供专业的客户服务,为用户提供全天候的支持和帮助。无论你在游戏中遇到什么问题或有任何疑问,他们的客服团队都会及时回答并提供解决方案。

为什么选择AG亚娱集团?

多样化的娱乐选择:AG亚娱集团提供多样化的娱乐选择,包括在线游戏、体育博彩、真人娱乐等。无论你喜欢哪种类型的娱乐,都能在AG亚娱集团找到适合你的项目,并享受精彩的娱乐体验。

优质的游戏体验:AG亚娱集团合作伙伴包括顶级的软件开发商,他们的游戏在画面质量、音效和流畅性方面都达到最高标准。无论你是喜欢电子游戏的刺激、棋牌游戏的策略还是真人游戏的真实感,AG亚娱集团都能满足你的需求。

安全可靠的平台:AG亚娱集团注重用户的安全和隐私保护。他们采用先进的加密技术和安全措施,确保用户的个人信息和资金安全。在AG亚娱集团平台上进行游戏和交易时,你可以放心地享受娱乐,而不必担心安全问题。

专业的客户服务:AG亚娱集团的客户服务团队专业、友好,提供全天候的支持和帮助。无论你在游戏中遇到什么问题或有任何疑问,他们都会及时回答并提供解决方案。你可以放心地与他们联系,获得所需的支持。

AG亚娱集团常见问题解答

问题一:AG亚娱集团如何确保游戏的公平性?

答:AG亚娱集团非常重视游戏的公平性。他们与独立的第三方机构合作,对游戏进行严格的监管和测试。这些机构会对游戏的随机性和公平性进行验证,确保每个玩家有公平的机会获胜。此外,AG亚娱集团使用先进的随机数生成器(RNG)技术,确保游戏结果的随机性和不可预测性。你可以放心地在AG亚娱集团的平台上进行游戏,享受公平的娱乐体验。

问题二:AG亚娱集团的存款和提款方式有哪些?

答:AG亚娱集团提供多种存款和提款方式,以便用户能够方便快捷地进行交易。常见的存款方式包括银行转账、信用卡、电子钱包(如PayPal、Skrill)等。对于提款,你可以选择将资金提现到你的银行账户、信用卡或电子钱包中。AG亚娱集团的交易系统安全可靠,保护用户的资金安全。

问题三:AG亚娱集团有没有新用户优惠活动?

答:是的,AG亚娱集团经常推出吸引人的优惠活动,以回馈新用户。这些优惠活动可能包括首次存款奖金、免费游戏机会或其他特殊奖励。如果你是AG亚娱集团的新用户,建议你在注册时仔细阅读优惠条款,并充分利用这些优惠活动,以增加你的娱乐体验和获胜机会。

结论

AG亚娱集团作为一家备受瞩目的娱乐产业公司,以其多样化的娱乐项目、优质的游戏体验、安全可靠的平台和专业的客户服务而闻名。无论你对哪种类型的娱乐感兴趣,AG亚娱集团都能满足你的需求,并带给你精彩的娱乐体验。通过与顶级软件开发商合作,他们提供高质量的游戏画面、音效和流畅性。你可以放心地在AG亚娱集团平台上进行游戏和交易,享受安全可靠的娱乐体验。无论你是新用户还是老用户,AG亚娱集团都会为你提供丰富的优惠活动和专业的客户服务。加入AG亚娱集团,开启精彩娱乐之旅!

回顶部
Proudly powered by Asia Gaming Group | Copyright © 2023 | 亚娱集团. 版权所有
AG官网 | AG亚游娱乐 | AG亚娱集团官方网站 | AG亚洲娱乐平台
  • ag亚娱集团官方网站
  • ag亚洲娱乐平台
  • ag亚游娱乐
  • 亚娱集团
Add your widget here
转到手机版