「画像認識の現状認識:ディープラーニングの成功と限界?」岡谷 貴之 (東北大学)「日本人のための音声対話による英会話学習システム」伊藤 彰則 (東北大学)

情報処理学会第221回自然言語処理研究会・第106回音声言語情報処理研究会共催研究会の招待講演のまとめです。 http://www.nl-ipsj.or.jp/NL221program.html
9
Mamoru Komachi @mamoruk

たたみこみニューラルネットは Neocognitron にルーツ。神経科学の知見が基礎。これは何を学習しているのか?学習されるフィルタは対応するユニットのアクティベーションを学習している。階層性と増加する不変性。視覚野での特徴抽出の知見と符合。#signl #sigslp

2015-05-26 11:13:31
Mamoru Komachi @mamoruk

深層学習はなぜうまくいく? 物体認識の難しさは見た目の変動の大きさ。線形の変換をいくらしても同じカテゴリの物体であることを認識するのは困難。不変性が CNN うまく学習できているのではないか。CNN はどこにあるかはわからないが、何があるかはわかる。#signl #sigslp

2015-05-26 11:20:20
Mamoru Komachi @mamoruk

画像認識の深層学習の現状まとめ。深層学習の画像応用での中核技術は「CNNの教師あり学習」一本。人並みにできるタスクは物体認識、顔・標識・文字認識。物体検出、動画の認識(ビデオ分類)やポーズの推定はまだまだ。これらは盛んに研究されている今後の課題。#signl #sigslp

2015-05-26 11:27:58
Yuya Unno @unnonouno

司会、岡崎さんなのか

2015-05-26 11:28:48
Mamoru Komachi @mamoruk

物体認識と物体検出はなぜこんなに難しさが違うのか? 物体認識は細かい違いはどんどん捨てるように学習し、表現しがたい不変性を CNN が捉えられるので、カテゴリを当てられるようになるのでは。物体検出(どの場所が物体かを当てる)とは学習するものが違う。#signl #sigslp

2015-05-26 11:31:43

日本人のための音声対話による英会話学習システム

Mamoru Komachi @mamoruk

東北大学の伊藤彰則先生による「日本人のための音声対話による英会話学習システム」スタートしました〜 #signl #sigslp (live at ustre.am/1gTdz)

2015-05-26 13:00:10
Mamoru Komachi @mamoruk

日本における英語学習は、昔はリーディング重視だったが、いまはコミュニケーション(リスニング、スピーキング)能力要請重視になってきた。そこでいろんな情報技術が活用されてきた。教師用(教育支援)もあれば、自習用(学習支援)、ソーシャルネットワークも。#signl #sigslp

2015-05-26 13:05:45
Mamoru Komachi @mamoruk

こういう技術は Computer Assisted Language Learning (CALL) と呼ばれている。80s はスペル学習やドリル。90s はマルチメディア教材提示。2000s から知的 CALL システムに発展#signl #sigslp

2015-05-26 13:07:31
Mamoru Komachi @mamoruk

CALL システムの可能性。インタラクティブ性。ゲーム性(edutainment)。「えいご漬け」「漢検DS」のように、ゲームをやって楽しく学習するようなシステムやソフト、アプリのニーズは高い。#signl #sigslp

2015-05-26 13:09:15
Mamoru Komachi @mamoruk

NLP/SLP で CALL に使える技術。スペル訂正。問題の自動評価や自動生成。韻律。足りないものは? パフォーマンスやコミュニケーション。これらには、リアルタイムな処理が必要。従来システムはバッティングセンターのようなもの。ロボコーチは作れるか?#signl #sigslp

2015-05-26 13:11:33
Mamoru Komachi @mamoruk

ロボコーチを用いた英語学習システムに必要な機能。学習者との対話。学習者を飽きさせない楽しさ。究極的には人間の教師と同等のことができるようにしたい。発音・韻律の評価、文法・語彙の練習。実際は音声認識の精度も音声合成の品質も低いので、難しい。#signl #sigslp

2015-05-26 13:14:24
Mamoru Komachi @mamoruk

発音の測定。学習者の発音を自動評価したい。音声認識の音響モデルを利用し、音響尤度を見ればよい。しかし、学習者の発音は「訛り」と「個人性」が混在しているので、難しい#signl #sigslp

2015-05-26 13:16:29
Mamoru Komachi @mamoruk

誤りの認識。「誤っていますね」と指摘するためには、誤っているものを誤っていると認識しなければならないが、(正しく発音されても認識が難しいのに)これは難しい#signl #sigslp

2015-05-26 13:17:30
Mamoru Komachi @mamoruk

インタラクティブ性の問題。人間であれば非言語的情報を用いて自然な行動をできるのだが、キャラクターなどを使用した CALL システムで、自然な行動をするのが難しい。#signl #sigslp

2015-05-26 13:18:28
Mamoru Komachi @mamoruk

2言語音響モデルによる発音誤り検出 [Kawai+00]。誤りを認識するためには、誤りモデルを作らなければならない。英語の音素モデルと日本語の音素モデル両方でネットワークを構築しておく。日本語の音素モデル由来のパスを通れば間違いであると認識する。#signl #sigslp

2015-05-26 13:22:34
Mamoru Komachi @mamoruk

発音の評価の難しさ。尤度だけ見ると、「正しい」発音から見て個人性の問題なのか言語性の問題なのかわからない。バイリンガル発話を活用。データが少ないので、日本語の音素モデルと英語の音素モデルを混ぜて適応。#signl #sigslp

2015-05-26 13:28:58
Mamoru Komachi @mamoruk

下手な発音を認識したい。日本人が発声した英語音声から学習する(ERJデータベース)。しかし下手な英語の下手さは多様。そこで、学習者のレベルによってデータを分割。一番レベルの低いデータが一番選択されるので、日本人の発音は圧倒的に下手であることが分かった。#signl #sigslp

2015-05-26 13:31:31
Mamoru Komachi @mamoruk

音声認識には言語モデルが必要。音声認識は通常「正しい英語」から学習するのだが、CALL システム的には言い間違いも含めて認識したいので、正しくない英語を学習したい。データが少ない。SSTコーパスは誤りにタグがついている貴重なコーパス。#signl #sigslp

2015-05-26 13:35:04
Mamoru Komachi @mamoruk

間違った文の自動生成。正しい文に(ルールベースで)確率的に誤りを入れることによって、誤りを含んだ文を認識できるように言語モデルを学習する。#signl #sigslp

2015-05-26 13:37:51
Mamoru Komachi @mamoruk

イントネーションの自動評価。単語によってイントネーションが大事なものとそうでもないものがある。事前にイントネーションを含めて音声を収録しておかなければならない。人間の音声の代わりに合成音声を利用。#signl #sigslp

2015-05-26 13:42:16
Mamoru Komachi @mamoruk

対話システムの課題。聞かれたら少し考えて一部を変えて答えるようなものではなく、オウム返しで反射的に返すような課題の方が学習効果が高いという報告もある。リスポンスをよくしたほうがよい。学習者にタイムプレッシャーを与えて強制的に喋らせたり。#signl #sigslp

2015-05-26 13:45:16
Mamoru Komachi @mamoruk

発音評価、イントネーション評価は人間と同じくらいできるようになってきたが、発音した通りに聞き取る、誤り認識するのが難しい。#signl #sigslp

2015-05-26 13:48:20

学会研究会の動画配信についてのフィードバック