はじめまして、こんにちは。プロダクト事業部RDの萩原です。ランキング・エンジニアとして、先日リリースされたモバイル検索サービスのコア・エンジンの開発に携わっています。
私たちは、モバイル・ユーザーの皆様に「User Friendly」なサービスを提供すべく、日本のモバイル事情について真剣に考え、サービス開発に取り組んできました。その中でも特に、日本のモバイル環境を語る上で切り離せない重要な要素に「絵文字」があります。今回の記事では、モバイル検索における絵文字への取り組みについて紹介します。
モバイルWebにおける「絵文字文化」
これまでのモバイル向け検索エンジンでは、絵文字というものをきちんと取り扱っておらず、インデックスから取り除いている場合が多いと見受けられます。しかし、私たちが普段携帯端末を使う際には、メールや個人ブログを書く時など、実に多くの場面で絵文字を使用していることが分かります。
そこで今回、モバイル用Webページにおいて、どのぐらい絵文字が使用されているのかを、Webページを ランダムサンプリングして実際に調査してみました。その統計が以下の表です。
絵文字を含んでいるモバイル・ページの割合 | 40.9% |
モバイル・ページ1ページに含まれる絵文字の平均数 | 4.10 (中央値: 0) |
「絵文字ページ」1ページに含まれる絵文字の平均数 | 10.01 (中央値:6) |
絵文字の出現率 | 113.1 文字(バイト)につき1個 |
また、モバイルWebにおいて、頻繁に用いられている絵文字トップ10ランキングを集計すると、以下の表のようになります。
順位 | 絵文字名 | 画像 |
---|---|---|
1 | 0 | Image may be NSFW. Clik here to view. ![]() |
2 | メモ | Image may be NSFW. Clik here to view. ![]() |
3 | サーチ(調べる) | Image may be NSFW. Clik here to view. ![]() |
4 | ぴかぴか(新しい) | Image may be NSFW. Clik here to view. ![]() |
5 | 黒ハート | Image may be NSFW. Clik here to view. ![]() |
6 | 本 | Image may be NSFW. Clik here to view. ![]() |
7 | 1 | Image may be NSFW. Clik here to view. ![]() |
8 | 家 | Image may be NSFW. Clik here to view. ![]() |
9 | 9 | Image may be NSFW. Clik here to view. ![]() |
10 | メール | Image may be NSFW. Clik here to view. ![]() |
このうち、0(Image may be NSFW.
Clik here to view.),家(Image may be NSFW.
Clik here to view.) などは、「トップ/ホームに戻る」ためのアイコンとして使用されているため、ランキングに入っています。また、「検索( Image may be NSFW.
Clik here to view.)」「ブックマーク(Image may be NSFW.
Clik here to view.)」「メールで知らせる(Image may be NSFW.
Clik here to view.)」などの絵文字の頻度も高くなっており、絵文字はこのような「機能」を表すアイコンとしても多用されていることが分かります。
この結果からも分かる通り、モバイルWebにおいて、絵文字は私たちの予想を超えて多用されています。そこで私たちは、より良いユーザー体験にとって絵文字は重要な要素であると考え、具体的に以下の2点に注目して絵文字処理に取り組んできました。
- 絵文字を正しくインデックス化し、検索結果のタイトル・スニペット上に絵文字を表示する。
- 絵文字の「意味的な用法」に注目し、自然言語を用いて検索できるようにする。
1. については、これまで「捨てられていた」絵文字を正しく携帯端末上に表示することによって、より正確で、かつ「楽しい」検索結果を提供できるようになります。
絵文字の意味的な用法
また、2. については、絵文字は、感情を表したり、単にページの装飾として使われたりするだけではなく、単語の代わりとして、自然言語の文の中で使われることがあります。
例えば、ビールの絵文字を例にとって、Webページ中におけるnグラム(単語の連続)の統計(頻度上位)を取ってみると、以下のようになります。(データには、私たちのWebページ・データベースからランダム・サンプリングしたものを、形態素解析器としては、MeCabを使用しています。記号や絵文字の連続についてはフィルタリングしています)
|
|
ここから、ビールの絵文字は、多くの場合、飲食店・居酒屋のドリンクメニューの装飾として用いられていることが分かります。しかし一方で、4グラムの統計を取ってみると、「て Image may be NSFW.
Clik here to view. が ウマイ」「で Image may be NSFW.
Clik here to view. 飲ん で」「で Image may be NSFW.
Clik here to view. でる とき」「Image may be NSFW.
Clik here to view. に 誘う も」などの言い回しも散見され、多くの場面で、「ビール」や「酒」、もしくは「飲み会」という単語の代替として使われていることが分かります。
そこで私たちは、「ビール」という自然言語の単語を使って、このような絵文字を含むページを検索できれば便利だと考えました。具体的には、一部の高頻度かつ重要な絵文字について、自然言語処理の分野で「語義曖昧性解消」と呼ばれる手法を用いて、文脈を元にしてその意味の推定を試みながら、「絵文字意味検索」に取り組み始めました。この機能については、今後より性能を上げるために努力する方針です。
また、自然言語だけではなく、絵文字そのものを用いた検索もサポートしています。例えば、
「六本木ヒルズ Image may be NSFW.
Clik here to view.」
というクエリの場合、電話の絵文字と、電話番号とを認識し、単なる装飾ではなく「意味的な」使用と認識し、検索結果に表示しています。他のランドマーク名+電話の絵文字、で検索してみても、面白いかもしれません。
今後も、さらに「絵文字に優しく、使いやすい」モバイル検索エンジンを目指して日々改善を進めていきますので、よろしくお願いします。