2016年11月14日 (月)

「東ロボくん」成績限界で東大合格諦める

K10010768531_1611141927_1611141931_01_03.jpg

東京大学合格を目指して、国立情報学研究所などが開発してきた人工知能「東ロボくん」は、長文の読み解きなどに技術的な壁があり、現在の人工知能の限界が明らかになったとして、研究グループは、東大合格をいったん諦めることを決めました。これまでの成果は、今後の人工知能の研究などに役立てるということです。

「東ロボくん」は、平成23年から、国立情報学研究所やメーカーなどが共同で開発を進めてきた人工知能で、東京大学の入試を突破することを目標に、センター試験の模試に挑んできました。

14日に公表されたことしの成績は、すべての科目を合わせた偏差値が57.1と去年から横ばいとなり、科目別では、物理が伸びた一方、数学が下がるなど成績にばらつきが見られました。

詳しく見ると、単語の意味など知識を問う問題は強いものの、長文の文章を読み解く力などが伸びていないということです。研究チームでは、辞書のようにあらかじめ与えられたデータがある短い文では理解力が極めて高い一方で、長い文章になると文脈を理解できないという限界が示されたとしています。そのうえで、現在の技術ではさらに大きく成績を伸ばすのは難しいとして、東大を目指す取り組みをいったん終了するということです。

プロジェクトのまとめ役を務める国立情報学研究所の新井紀子教授は「今後は一律にセンター模試を受け続けるのではなく、科目別に技術を磨きたい。受験生の中にも人工知能と同じように読解力不足の子どもたちもいると思うので、これまでの成果を基に、人間の読解力を向上させる研究にも取り組んでいきたい」と話しています。

東ロボくんの解き方と限界は

「東ロボくん」は、どのように問題を解いているのでしょうか。

「東ロボくん」は、受験生が挑戦する問題文をそのまま与えても理解することはできません。どうやって解かせるかは、問題ごとに人が考え、プログラムを組んでいます。

例えば、英語の場合、1つの英文の中に単語を補って文を完成させる穴埋め問題では、膨大な量の文章を集めたデータベースを使う作戦をとりました。問題で与えられたそれぞれの選択肢を1つずつ当てはめ、できた文がデータベースの中にどれだけ含まれるかを比べます。単語の並びが完全に一致した文がデータベースの中に見つかると、人間が使っている「正しい文」と判断し、最も高い点数を与えます。一部が一致した場合、同じ並びだった単語の数が多いほど高い点数を与え、最も点数が高かったものを東ロボくんの答えとします。

この方法では、データベースが大きければ大きいほど成績が上がり、ことしは500億単語に増やしたことで正答率を9割近くに伸ばすことができました。英語を担当したNTTコミュニケーション科学基礎研究所の東中竜一郎主任研究員は「膨大な量のデータを使うことで、かなり珍しい問題でも精緻に判断できることになり、受験生を大きく超える能力になった」と話しています。

一方で、なかなか力が伸びなかったのは、会話文を完成させる問題や文章を要約する問題など、「複数の文」を組み合わせた問題でした。

例えば、2人の会話文の中で、空欄になっているひと言を選択肢から選ぶ問題では、会話の流れをどう理解させるかが壁となりました。会話に含まれる単語から、話し手の感情を分析し、さらに発言の内容を質問や同意などおよそ30種類に分類します。そして、選択肢を一つ一つ当てはめ、話の流れや気持ちの変化が自然になるかどうかを比較することで答えを導こうとしました。しかし、一つ一つの文は分析できても、文と文の関係を理解させることができず、正答率は上がりませんでした。

さらに、人工知能が自動的に学習することで能力を飛躍的に向上させたディープラーニングと呼ばれる技術も試しましたが、効果はありませんでした。人工知能に言葉を理解させる技術は、自然言語処理と呼ばれていますが、2つ以上の文を理解させることは極めて難しく、世界中の研究者が挑戦しているのが現状です。

東中さんは「東ロボくんは、文が複数になったときの意図や文脈を理解できないことがわかりました。人間の会話を理解させるには、学習の基になる大量のデータが必要です。今後はこうした特徴を踏まえ、大量のデータを用意したり、アルゴリズムを検討したりすることが、今後の人工知能の発展に重要だと思う」と話していました。

投稿者:かぶん |  投稿時間:18:06  | カテゴリ:科学のニュース
コメント(0) | トラックバック (0)


トラックバック

■この記事へのトラックバック一覧

※トラックバックはありません

コメント(0)

※コメントはありません

コメントの投稿

ページの一番上へ▲