こんにちは。プロダクト事業部エンジニアの萩原です。
8月11日、東洋大学白山キャンパスにて、文字研究会主催の「第5回ワークショップ:文字―「現実」から見た改定常用漢字表― 」が開催されました。ワークショップにて、「ウェブ上における使用実態統計から改定常用漢字を考える」というタイトルで発表させていただきましたので、今回はそのご報告です。
今回のワークショップの背景として、常用漢字表の改定があります。現行の常用漢字表が制定されたのは29年前の1981年ですが、現在では、情報機器の普及、インターネットの発展によって、漢字をはじめとすることばの使用実態にに大きな変化が起こっています。
新しい言語現象の最先端とも言えるウェブで、どのような変化が起こっているのでしょう。その変化を正確に捉えるために、今回、ウェブ上の言語現象を、正確な時間と共に記録した「高精度時間軸ウェブコーパス」をバイドゥ独自に構築し、ブログやBBS(電子掲示板)などの「新しいウェブ」における漢字の使用実態を調査しました。具体的には、BBSからは、日付・時間表現をもとにして投稿本文を、ブログのデータは、メタデータ(RSS,RDF,ATOM)をもとにして記事本文を、弊社のクロールしたウェブページから収集しています。こうすることにより、言語現象を、その発生した正確な時間と結びつけた大量のテキストデータを構築することができます。またさらに、前回リリースしたBaidu絵文字入りモバイルウェブコーパスと同様の文フィルタリングを施すことによって、アスキーアートやノイズなどの影響を最小限に抑えることができ、正確な言語現象を把握することができます。
増える漢字・カタカナ、減少するひらがな
以下のグラフは、このように構築した「高精度時間軸ウェブコーパス」の規模を、時間軸上に示したものです。BBSについては2000年頃から、ブログについては2004年ごろから、各サービスの開始に合わせて、その量が急激に増加していることが分かります。
このデータを使うと、どのようなことが分かるでしょうか。まずは、最も基本的な言語統計の「文字種」について、時間の経過とともにひらがな・カタカナ・漢字・英数字の使用割合がどのように変化しているかを調べてみました。ここから、近年、カタカナおよび漢字の使用が相対的に増加していることが分かりますが、これは外来語の増加が背景にあると考えられます。
使用率が激減している漢字
さらに、このデータを使うと、個別の漢字について、その使用率の変化を時間軸に沿って調べることができます。例えば、以下の図は、ある漢字について、その使用率の変化を時間軸でプロットしたものです(太線は6ヶ月の移動平均です)。2001年前後に非常に多く使われているにもかかわらず、近年ではそのネット上での使用率はめっきりと減っています。この漢字が何かみなさん分かりますか?
正解は「藁」です。この漢字、当初はBBSで「笑い」を表すスラングとして頻繁に用いられていましたが、近年では「笑」「(w」「www」など、ネット上の「笑い方」も変遷しており、非常に使われることが少なくなっています。このように、このコーパスを用いると、ネット上の言語現象の移り変わりを正確に分析することができます。
ワークショップでは、会場の皆さまから、非常に参考になるご意見・ご質問・フィードバックを多数いただきました。この場を借りて御礼申し上げます。いただいたご意見等は、今後の研究開発に役立てていければと思っています。
なお、今回構築した「高精度時間軸ウェブコーパス」の言語統計データ(nグラム)は、近日公開する予定でおります。今後もぜひご期待ください。
(本ワークショップの発表資料については、こちらからご覧になれます。)