研究室紹介

投稿者:

自然言語処理、特に語学学習支援の研究をしています。

  • 自然言語処理とは?:人間が普通に使っている言語(自然言語)を自動的に処理すれば、自然言語処理です。身近な応用例としては、スマートフォンのフリック入力やGoogleの自動翻訳が挙げられます。siriなどの音声認識を思い浮かべた人も多いと思いますが、音声認識は「音声信号処理」という別の分野で基本的に当研究室では扱いません。WebページやWikipediaや新聞記事など、すでに電子化されているテキストデータを扱います。
  • この分野では、日本の学会でも国際的な学会でも、論文は全部無料でPDFでWebにあがっています。
    • 内容を理解する必要は全くないですが、雰囲気と分量だけ掴んでもらうためにページを1つ挙げておきます。例えば、ここに掲載されている論文は、どれも図や文章を増やして8ページぐらいにすれば、立派な卒論になります。
    • http://www.anlp.jp/proceedings/annual_meeting/2019/index.html#C4
  • 主にPython言語を使いますが、別にPython言語知らなくても大丈夫です。Pythonはポインタがないので、そこは明らかにC言語より簡単です。
  • 卒論はTeXで書いてもらうと思います。
  • PythonやTeXを指定しているのは、業界で標準的に使われていて解説記事が日本語でも大量にあり、教員自身が慣れているので学生がはまったときに手助けしやすいからです。
  • 卒論ではプログラミングが必要になります。研究の大まかな流れとしては:
    1. 計算機に何をやらせたいか決める(=卒論のテーマを決める。相談の上、決めていきます。教員が用意したものの中から選んでもらうこともあります。)
    2. 計算機に模倣させるためのデータを用意する
    3. 模倣させるためのプログラムを書く←ここでプログラミングが必要になる
    4. どれぐらい正確に模倣させられたか、精度を検証する
    5. 卒論を書く

 

余談:

  • 江原自身は、「英語学習者が英文を読むときに、その学習者が知らなさそうな単語を機械学習で自動的に予測して、全部あらかじめ訳をつけておく」という読解支援システムを世界で初めて提案した人です。
  • さて、このシステムの性能を評価するにはどうしたらいいでしょう?実際に学習者が知っている単語を、どれだけ正確に当てられるのかが、当然知りたくなりますよね。そのためには、ある学習者が実際に知っている全英単語のリストが必要になります。
  • そのために、12,000語の英単語リストを作り、自分がどれだけ英単語知ってるのか、自己申告で12,000語、自分が各単語を知ってるか知らないかを記録したデータを作りました。これが10年前です。明らかに面倒臭い作業なので、それまで誰もやっておらず、丸一日で世界初になれました。
  • 「自然言語」は人間が使っている言葉である以上、機械的に正しいか正しくないか判定できるプログラミング言語と異なり、それが正しいかどうかは、結局、だれか1人でもよいので人間が判定する必要があります。
  • テーマさえ適切に設定できれば、自分で日本語に関するデータを作って、世界初を目指すことも可能です。

 

返信を残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です