Word Hashing

Word Hashing

単語を文字n-gramとして表現する
ex) good -> [#go, goo, ood, od#]

利点

  • 文字n-gram の組み合わせは有限
  • 単語が変化した場合でも,元の単語の表現と近いものになる

goods -> [#go, goo, ood, ods, ds#]

  • 訓練データに無いワードでも文字n-gram化すれば,使える部分が存在する

欠点

  • 当然,ある単語1と単語2の表現が全く一緒になることもある
    • つまり,衝突する

ref: Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

クエリーとクリックされた文書のタイトルを
word hashing どのように feature 化しているのかは謎...