トム・フォーリーが語る、レコメンドエンジンのいま後編 – レコメンドに必要な11の「わかった！」

シルバーエッグ・テクノロジーCEO トム・フォーリーが語る「レコメンドエンジンのいま」後編は、レコメンドエンジンを導入するうえで意識しておかなければならない11の「わかった！」についてです。

「わかった！」といっても、なにか難しいAI技術がかんたんに理解できる、という意味ではありません。むしろ、AIと呼ばれるツールの中でも比較的普及しているレコメンドエンジンであっても、これだけの難しい検討要素があるということを、わかって欲しいのです。

ここで述べられている問題に、簡単な解決策はありません。しかし世界中で、機械学習のエンジニアたちが問題を緩和し、よりよいパーソナライズド・サービスを実現しようと、奮闘しています。今後、御社のサイトのレコメンド品質を向上させ、より良い顧客体験を築こうとするのなら、レコメンド技術を提供する事業者にはこの11の項目にどう取り組んでいくのかを、確認してみてください。

シルバーエッグ・テクノロジー株式会社
代表取締役社長 & CEO
トーマス・アクイナス・フォーリー

>> See English version

レコメンデーション分野の研究は今も急速に発展しています。さまざまな形式の確率的推論、行列因数分解、再帰型ニューラル・ネットワークを使用したディープラーニングなど、利用するテクニックに事欠くことはありません。ただ、今回はこれらの難解な技術について議論するのではなく、もっと基礎的なレベルで、効果的なレコメンドの実現を妨げる深刻で慢性的、かつ見過ごされがちな共通の課題に焦点を当てたいと思います。

1. アイテムは入れ替わる。そしてユーザーも然り

レコメンデーション用の機械学習モデルの多くは、アイテムとユーザーの関係性を分析し、推薦アイテムを決定しています。問題は、このアイテムとユーザーのデータの関係性を、固定的なものとして持っているということです。

現実のWebサービスでは、アイテムもユーザーも常に入れ替わります。レコメンドエンジンが最も必要とされるのは、入れ替わって入ってきた新しいユーザーとアイテムなのに、そこができないのです。これはコールドスタート問題と呼ばれる根本的な問題です。

問題を緩和させるためには、前編で説明した行動エンベディングの技法が有効です。特徴空間上で、新しいアイテムと他のアイテムの類似性に基づき、新しいアイテムや顧客の適切な位置を推測し、レコメンドすることができます。

2. すべては変化する

1に関連する問題として、機械学習モデルは、確率が時間とともに変化しないという仮定に基づいている場合が多々あります。実際には、アイテムの人気はライフサイクルに従い変動しますし、季節性や外因性要因の影響も受けます。レコメンデーションでは、アイテムの人気の変化を考慮する必要があります。

3. 機械学習モデルの学習にはコストがかかる

機械学習モデルの学習は、通常、専用のハードウェアが用意されバッチ処理で行われます。しかし、実ビジネスの環境で顧客の嗜好についていくためには、モデルが継続的かつリアルタイムに学習し、変化に対し動的に追従する必要があります。

オンラインでリアルタイムの段階的な学習が必要であるにもかかわらず、現状多くのAIツールが、オフラインでのバッチ学習を行っています。この矛盾した状態は、高度なエンジニアリング的課題の産物です。

4. 協調フィルタリングは、アイテムの“共起”から学習する

共起（Co-occurrence）とは、あるアイテムが選ばれたときに、別のアイテムが頻繁に選ばれるような状態を指します。共起を観察するために必要な時間は、アイテム数の2乗に比例します。

多くのアイテムがある場合、それらすべてについて統計的に有意な数の共起を観察するために、長時間待たなければならない場合があります。観察がないことによる結果をSPARSITY（希薄）と呼びます。特別な対応をしないと、この希薄問題によってモデルのノイズが増加し、予測が不正確になります。

5. 人気アイテムは、べき乗即分布に従う

アイテムの人気は、有名なジップの単語頻度分布のように、ほぼ常にべき乗則分布に従うという事実があります。これは希薄問題を更に悪化させます。人気商品の共起はよくあることですが、企業が本当におすすめしたいアイテムは、往々にして共起の観測されづらい「ロングテール」アイテムにあるからです。

6. “良い”レコメンドの裏付けは難しい

ログ（販売ログなど）の学習を元に作られる一般的なレコメンデーション・ポリシーは、「次に買われるアイテムの予測」を「良いレコメンド」と捉えています。しかし、そのレコメンドエンジンが、間違ったアイテムを無駄にレコメンドしていないかどうか、どうやったらわかるのでしょう？

強化学習の方法論は、この問題解決にぴったりですが、行列分解に基づいた協調フィルタリングによるアイテム予測に比べ、技術的な難度はとても高くなります。

7. エコーチェンバー効果によるレコメンドの歪み

サイト内でモノを探すことを想像してください。検索窓に文字を入力したり、カテゴリツリーを辿ったりするよりも、レコメンド表示されたアイテムを1回クリックするほうが“簡単”です。そのため、ユーザーはサイト探索をレコメンドに依存することがあります。しかし、これはフィードバックループとバイアスを引き起こします。

ユーザー1人ひとりは、レコメンド表示されるアイテムに違和感を持たないかもしれません。しかし、多くのユーザーが初期に提示されたアイテムをサイト探索のためにクリックし、レコメンドエンジンがそのログから予測モデルを継続的に再学習すると、上位のアイテムばかりが継続的に表示され、ますます多くの人々がそれをクリックするというループになります。これは、エコーチャンバーの形成にほかなりません。

結果として、露出させたいロングテールのアイテムは無視され、人気アイテムの表示が過剰になってゆきます。ユーザーからすると、同じアイテムばかりが表示される退屈なサイト、ということになり、ユーザー満足度が低下してしまいます。

8. エンゲージメントの増加は、必ずしも正しいとは言えない

エンゲージメントを測定するための正しいKPIとはなんでしょう？例えばレコメンドのクリック数の増加は、ユーザーの積極的なエンゲージメントを示しているように見えますが、本当に正しいでしょうか？商品が見つからないユーザーが何度もクリックし、不満を感じてサイトを去った可能性は？別にレコメンドがなくてもアイテムを購入する気だったユーザーに、ムダにレコメンドを出しクリックさせていた可能性だってあります。

長期的なエンゲージメントの成功を、レコメンドのクリック数から推し量ることは困難です。レコメンドエンジンは、クリック数の増加だけを指標として評価せず、コンバージョンとライフタイムバリューの向上という評価軸でも考えるべきです。

9. クリックスルーのトレードオフ

前述のとおり、レコメンドエンジンには総じて多くのユーザーがより反応しがちなアイテム、つまり人気のあるアイテムをレコメンドする傾向があります。

ロングテール・アイテムをお勧めしてエンゲージメントを促し、“セレンディピティ”を生み出すことで顧客満足度を高めたいなら、確実にクリックスルーの稼げるアイテムの表示をあきらめ、クリックされる可能性の低い（しかし適切な相手にハマれば購入される確度は高い）アイテムを多く出す方向に舵をきらなければなりません。

10. 得られたデータの応用

ユーザーの統計的な閲覧・購入傾向から、学べることはたくさんあります。ユーザーサービス部門にとっては、このデータは宝の山と言えるでしょう。いま利用しているレコメンドエンジンは、単におすすめアイテムを表示するだけですか？それとも、確率的推論によるユーザー分析までサポートしていますか？

11. レコメンドを使いこなすのは、人間の仕事

レコメンドを表示する最良の方法は何でしょう。Webページ内でレコメンドするアイテムの適切な数や、ページ内のベストな配置場所は、どうやったら決められるでしょうか？

ユーザーがレコメンデーションにエンゲージする手段も、その反応も、多様です。レコメンドの表示方法の違いにより、コンバージョン効果が大幅に向上する場合もあります。ユーザーの中には、なぜそのアイテムがレコメンドされたのか分からないからと言って、レコメンドを拒絶する人もいます。

いかなるレコメンドエンジンも、「レコメンドをWebサイトのどこにどう表示させるか」を自律的に決めることはできません。これらを決めるには、しっかりとした専門知識と規律ある実験手法を身に着けたエキスパートに頼る必要があります。

覚えておいていただきたいことは、パーソナライズされたレコメンデーションは、サイトの単なる追加機能ではないということです。オンラインにおける顧客との関係づくりの中心になるものです。

レコメンデーション機能により、御社はユーザーの声を聞き、ユーザーから学ぶ姿勢をユーザーに示すことができます。また、学んだことを活用してより多くの価値を生み出し、ユーザーに「信頼に足るサービス事業者だ」と認められることができます。ユーザーとの関係を重視するのであれば、適切にレコメンドエンジンを運用し、ビジネスの成長に合わせて継続的に取り組んでいくべきだと、私は考えます。

11 Recommendation Gotchas (Part 2)

The recommendation field is still growing rapidly and there is no shortage of techniques to choose from. They include various forms of probabilistic inference, matrix factorization as well as deep-learning using recurrent neural networks. But, rather than debate the technical merits of the many esoteric alternatives, today I want to instead highlight some of the more acute, chronic and often overlooked challenges that bedevil naive recommendation solutions.

1) Items come and go. So do users. The problem is that recommendation models don’t expect it. This is a fundamental problem called the COLD START problem. Tragically it is with new customers and new items we need recommendations most. There are workarounds – for example using content similarity to make an initial guess about the correct position of a new item or customer in a behavior embedding.

2) A related problem is NON-STATIONARITY. Machine learning models also often assume that probabilities don’t change over time; but item popularity follows a lifecycle and is also subject to seasonality or exogenous events. Recommendations need to take changes in item popularity into account.

3) Machine learning models are expensive to learn. They are typically learned in batch runs on special hardware. But to keep up with customers you really want your models to learn continuously and in REAL-TIME – adapting immediately and dynamically to on-line change. The fact that recommendations need online, real-time and incremental learning is in conflict with the off-line, batch learning nature of most AI tools. This presents a serious engineering challenge.

4) Collaborative filtering learns from item co-occurrences. The amount of time you need to wait to observe co-occurrences is proportional to the square of the number of items. If you have a lot of items, you may have to wait a long time before observing statistically significant numbers of co-occurrences for all of them! The absence of observations that result is known as SPARSITY. Without special handling, SPARSITY leads to models that are noisy and inaccurate.

5) Sparsity is exacerbated by the fact the item popularity almost always follows a POWER LAW distribution like the famous Zipfian distributions of word frequency. Co-occurrences of popular items are common, but not in ‘long-tail’ items that you want to recommend.

6) Recommendations policies are often learned from logs and use next-item prediction as a proxy for ‘good’ recommendations. So how would you know if your recommender is fruitlessly flogging recommendations of the wrong item? What you really need is reinforcement learning, but this is much harder than the kind of matrix-factorization based item prediction on which elementary forms of collaborative filtering typically rely.

7) Customers often use recommendations to navigate a site because it is easier to click a recommendation than to use search or categories. But this causes a feedback loop and BIAS. It may look like your recommendations are working. But, you continually relearn your predictive model from the log of clicked items, more and more people gravitate to the same top ten items. All you have done is to create an echo-chamber. Items in the long-tail that you would like to expose will be ignored and customer satisfaction will fester from boredom due to overexposure of popular items.

8)Speaking of engagement, what is your KPI? Clicks on recommendation may seem indicative of positive engagement; but a customer who cannot find items may also end up clicking around a lot, buy nothing and go away unhappy. Or maybe you are recommending items customers would have bought, anyway. It is difficult to relate long-term engagement back to recommendations, but you need to be choosing recommendations that increase conversions and lifetime value, not just clicks.

9)Recommenders are naturally biased toward recommending more popular items because they are the ones that, on the whole, customers are more likely to respond to. But if you really want to drive engagement with less frequently trafficked items in the long-tail, and increase customer satisfaction from SERENDIPITY, you may need to trade-off click-thru response on sure-thing items for long-shots from the long-tail.

10)You can learn a lot about customers from what they browse and buy. This is a gold-mine for customer service. Is your recommender helping you to make probabilistic inferences about your customer in order to support other forms of service, or are you just making recommendations?

11) What is the best way to show recommendations? How many items should be recommended and where to put them on the page? Customers engage and respond to recommendations differently. Some may ignore or distrust recommendations unless suitable explanations for their derivation are provided. Differences in presentation may vastly improve effectiveness. Yet, no recommender can decide these things for you – you need to draw on real recommendation expertise and disciplined experimentation.

The take-away here is that personalized recommendations are not just a bolt-on feature of your site. They are central to your online customer relationships. They show customers you are listening and learning from them – and that you can be trusted to put what you learn to work in creating more value. If you value your customer relationships, you need to get recommendations right, and continue to work on them as your business grows.

トム・フォーリーが語る、レコメンドエンジンのいま 後編 – レコメンドに必要な11の「わかった！」