読者です 読者をやめる 読者になる 読者になる

Mining User Mobility Features for Next Place Prediction in Location-based Services のメモ

やること

LBSN のデータを使って,ユーザが次に訪れる場所を予測する

  • LBSN は,foursquare とか Google+ のように,SNS に location 要素を追加したサービスを指している

チェックインデータを分析したところ,連続したチェックインデータには,

  1. 距離的に近いチェックインほど起こりやすく,
  2. 時間の差が短いチェックインほど起こりやすい

という傾向がみられたため,24時間以内に起きたチェックインを対象にしている

特徴量

12個の特徴量を挙げている

User Mobility Features \hat{r}_{k}(u)

ユーザに特化した特徴

  • Histrical Visits: ユーザが過去にチェックインした場所kの頻度
  • Categorical Preferences: ユーザが過去にチェックインした場所kをカテゴリに置き換えたときの頻度
  • Social Filtering: ユーザのフレンドが,過去にチェックインした場所kの頻度

Global Mobility Features

すべてのユーザで共通の特徴

  • Popularity: ユーザ全体での,チェックインした場所 k 頻度
  • Geographic Distance: 現在位置からの距離で並べた順位
  • Rank Distance: 現在位置 l' から予測する位置 k の間にあるチェックイン箇所の密度
  • Activity Transitions: チェックイン(カテゴリ)の遷移の頻度
  • Place Transitions: チェックインの遷移の頻度

Temporal Features

周期的な活動に関する特徴量

  • Category Hour
  • Category Day
  • Place Day
  • Place Hour

結果

以上の特徴量で,予測したとき精度が一番高い特徴は,
Histrical Visits で一番良くて0.35強ぐらい
f:id:laughing:20130204022308p:plain

教師あり学習

リッジ回帰とM5決定木で分類問題として解く

事例の作り方

  • 正例

あるチェックインの1つ前のチェックイン情報を特徴とする

  • 負例

あるチェックインの1つ前のチェックイン情報以外からランダムに抽出した,
チェックインを特徴とする

結果

M5 の方が良好
TopNのNを大きくすると精度は向上するが,
Nが小さいときはかなり精度が悪い
f:id:laughing:20130204021518p:plain

また,1週間の精度の推移を見ると,休日のほうが精度が悪い
f:id:laughing:20130204021622p:plain

感想

精度の低さが気になる
分類問題として解いたときに,リストのサイズを増やせば,精度は改善しているが,
100個も出すのは推薦として現実的でないし...

出せて10,20個ぐらいなので,ユーザの過去のチェックインを集計した,
Histrical Visits でも十分なのかも

foursquareマーケティング 位置情報の賢い使い方

foursquareマーケティング 位置情報の賢い使い方