読者です 読者をやめる 読者になる 読者になる

Thompson Sampling のシュミレーション

専ら上手くいくという Thompson Sampling のシュミレーションをする

Thompson Sampling

  • ベイズ戦略で MAB の腕を決める方法
    • 事後確率から sampling して最大となる腕を選ぶ

参考

シュミレーション

参考

code 類

結果

  • 報酬を得る確率

f:id:laughing:20141229002728p:plain

  • 得る報酬の累積

f:id:laughing:20141229002906p:plain

  • 選ばれる腕の分散

f:id:laughing:20141229003026p:plain

まとめ

  • epsilon-greedy,UCB1 および Softmax と比べて,Thompson Sampling(紫) は
    • 報酬を得る確率が高く
    • 報酬の合計は一番大きく
    • 報酬を最大化する腕を見つけるのが速い ということが分かりました(小並感)