KyTea v.s. MeCab - 形態素解析における点予測対系列ラベリング,または品詞の要不要など - Togetter
Twitterのつぶやきマッシュアップメディア!
@togetter_jpをフォロー
マイページ
メニュー
設定
ログイン
トップ
ニュース
社会
地域
芸能・スポーツ
IT・Web
科学・教養
カルチャー
趣味
生活
仕事
ネタ・お笑い
ログ・日記
震災
311
援助
大喜利
物資
原発
支援物資
生活保護
速報
国内
アジア
アメリカ
ヨーロッパ
その他
政治
経済
国際
法律
環境
コラム
東京
東京近郊
北海道
東北
関東
北陸・信越
東海
近畿
中国・四国
九州・沖縄
海外
芸能
テレビ
ラジオ
野球
サッカー
ゴルフ
格闘技
競馬
モータースポーツ
その他
Android
Apple
インターネット
パソコン
モバイル
ガジェット
サイト制作
プログラミング
その他
科学
テクノロジー
エネルギー
数学
物理
宇宙
自然
人文
建築
心理
その他
アニメ
ゲーム
マンガ
アイドル
映画
音楽
書籍
演劇
ファッション
社会学
カメラ
車・バイク
電車
旅行
釣り
歴史
アート
デザイン
動物
その他
ハウツー
レシピ
グルメ
恋愛
マネー
節約
健康・医療
教育
ペット
起業・ベンチャー
経営
マーケティング
会計・人事
法務
就職・転職
語学・資格
ネタ
お笑い
大喜利
画像・動画
やってみた
その他
ログ
日記
思い出
雑談
メモ
飲み会
議事録
イベント
セミナー
復興
原発
支援
政府
自治体
トップ
>
IT・Web
>
プログラミング
> KyTea v.s. MeCab - 形態素解..
2011/11/27 16:49:06
IT・Web
プログラミング
+
KyTea v.s. MeCab - 形態素解析における点予測対系列ラベリング,または品詞の要不要など
@zzzelch
さん,
@taku910
さん,
@neubig
さんの議論をまとめました.
by
nokuno
6 fav
1883 view
Fav
6
お気に入りに登録ならここをクリック!
まとめ
メニューを開く
一括削除
むしろこっち。
http://t.co/16L84c1e
「点予測による自然言語処理」 RT
@AntiBayes
zzelch先生の発表資料はこちら
http://t.co/WkUlAFN2
#TokyoNLP
返信する
RTする
ふぁぼる
zzzelch
2011/11/23 15:18:13
点予測による単語分割が分野適応に便利なことは理解できるが、Juman/MeCabといった最小コスト法のものに、単語を追加する方法と本質的にどう違うのだろうか。語彙の追加以上にユーザの負荷が軽減するのか直感的にはわからない。
返信する
RTする
ふぁぼる
taku910
2011/11/24 16:39:55
例えば、「なう」を文末っぽいところ*だけ*終助詞にしたければ、MeCabなら単語登録で済む。点予測の場合は、前方の品詞が分からないので、終助詞以外の「なう」と区別するにはそれなりの量の文脈をアノテートしないといけない。
返信する
RTする
ふぁぼる
taku910
2011/11/24 16:44:59
@taku910
確かに気になりますね。日本語には普遍的な品詞分布があれば、新しい単語に対応するためにこの未知語+品詞の情報しか必要がないはずです。新しい分野において辞書追加 vs. 辞書追加+コーパス追加を比べたらある程度この仮定がどれぐらい正しいかは分かるので、計ってみます。
返信する
RTする
ふぁぼる
neubig
2011/11/24 19:06:59
@taku910
点予測の1つの明確な利点としては未知語モデルを作らなくても動くところです(ラティスのコスト最小化でももちろんできますがご存知の通り難しいです)。これに伴ってアノテーションするべき箇所を選ぶのも比較的簡単になって、単純にスコアの低いところを使って未知語を拾えます。
返信する
RTする
ふぁぼる
neubig
2011/11/24 19:11:38
そいや、点予測は各予測を完全に並列化できるので、OpenMPを使って超お手軽に高速化できそう。MeCabでやろうか考えたがLatticeを組むときに、Critical Sectionがいくつかあるのでめんどくさそう。(というか高速になるか謎)
返信する
RTする
ふぁぼる
taku910
2011/11/24 19:49:41
まず、変化球の返答ですが、品詞をつけなくてもよい。
@taku910
点予測による単語分割が分野適応に便利なことは理解できるが、Juman/MeCabといった最小コスト法のものに、単語を追加する方法と本質的にどう違うのだろうか。
返信する
RTする
ふぁぼる
zzzelch
2011/11/24 21:02:42
ついで、同一品詞で文脈によって読みが違う単語が、読みとともに部分的アノテーションすれば、読みが峻別できる。
#KyTea
返信する
RTする
ふぁぼる
zzzelch
2011/11/24 21:04:25
ab/POS1 c/POS2 と a/POS1 bc/POS2 が文脈に応じて区別できるように追加できる。
#KyTea
返信する
RTする
ふぁぼる
zzzelch
2011/11/24 21:07:46
多くの場合、未知語は実際の文中で発見されるので、たんに単語を登録するのではなく、その文脈も含めるて登録すると、単なる単語登録以上の情報量があるはずです。点予測はそれを簡単に実現する。
#KyTea
返信する
RTする
ふぁぼる
zzzelch
2011/11/24 21:13:09
右が文末かも見るので、少量でいいと思うけど。
@taku910
例えば、「なう」を文末っぽいところ*だけ*終助詞にしたければ、MeCabなら単語登録で済む。点予測の場合は、前方の品詞が分からないので、終助詞以外の「なう」と区別するにはそれなりの量の文脈をアノテートしないといけない。
返信する
RTする
ふぁぼる
zzzelch
2011/11/24 21:25:29
@zzzelch
要するに、文脈情報をレキシカルな文脈か、品詞で内包するかの違いですね。興味はこの2つのどちらがユーザにとって簡単で制御しやすいかということです。語彙化された文脈はどうしてもスパースで過学習しそうに思えるのですが... (すなわち制御が難しい)
返信する
RTする
ふぁぼる
taku910
2011/11/25 09:45:57
@zzzelch
終助詞が常に文末に来るとは限らないですよね。他の例だと、「っち」とか「たん」といった人名接尾も、人名の後ろという情報でおおよそ汎化できるのに、語彙化された文脈が本当に必要なのでしょうか?
返信する
RTする
ふぁぼる
taku910
2011/11/25 09:49:51
まずは、単語分割だけでよいユーザーに品詞体系の理解を要求しないことは重要でしょう。次に、形態素解析の曖昧性のほとんどは単語分割にある。で、"なう/終助詞" を機械に教えるより、"Context1 なう/終助詞 Context2" で教えるほうが情報量が多い。
@taku910
返信する
RTする
ふぁぼる
zzzelch
2011/11/25 10:43:51
「語彙化された文脈が必要」というのは90年代後半以降の自然言語処理では常識だとおもうのですが...。
@taku910
返信する
RTする
ふぁぼる
zzzelch
2011/11/25 10:52:36
@zzzelch
タスク依存でしょう。少なくとも人名接尾の話題に語彙化はオーバースペック。無限にリソースがありタグ付けできるのであれば語彙化という理想論で問題ないです。今議論しているのは、ユーザにとって何が楽かです。楽するために品詞経由で既知語の統計量を借りてくる。
返信する
RTする
ふぁぼる
taku910
2011/11/25 12:57:51
"なう/終助詞" の存在の情報量と "Context1 なう/終助詞 Context2" の存在の情報量の比較の結果は明白ですよね。あとは分類器がどうさばくかです。Context1 と Context2 を無視して単なる単語登録とするのは包含されている。
@taku910
返信する
RTする
ふぁぼる
zzzelch
2011/11/25 14:56:20
助詞の細分類がわかる作業者を見つけるのは困難ですよ。品詞大分類の体系ですら習得してもらうのは容易ではないです。そしてさらに、タスクが品詞不要なら、もう何のために品詞情報を付与しているのか。と思いませんか。
@taku910
返信する
RTする
ふぁぼる
zzzelch
2011/11/25 14:59:48
言語モデルを作るのが目的の場合、JUMAN や ChaSen/MeCab はオーバースペックであるだけでなく、分野適応のための単語登録に品詞体系の理解を要求してくる。単語分割情報だけでよい
#KyTea
の設計のよさが際立つ。
返信する
RTする
ふぁぼる
zzzelch
2011/11/25 15:32:04
「形態素解析の分野適応:辞書追加だけでいいのか」を調べるために実験をやってみました:
http://t.co/F9dubiRg
。コーパスを追加することで可能な改善の75-80%は辞書追加で可能らしい。また、MeCabもKyTeaも辞書追加で同じぐらい向上するのも面白かった。
返信する
RTする
ふぁぼる
neubig
2011/11/25 15:47:00
@zzzelch
mecabであれば文脈は連接表が担います。単語だけの登録でも既知語のふるまいと共有します。点予測の文脈は語彙なのでスパースだけだなく既知語の情報を再利用しません。少量のアノテーションであれば後者はスパース過ぎます。
返信する
RTする
ふぁぼる
taku910
2011/11/25 15:47:23
誤解の訂正です。点予測の文脈は文字列と文字種列です。前後1文字の文字種くらいだとぜんぜんスパースではないですよ。RT
@taku910
点予測の文脈は語彙なのでスパースだけだなく既知語の情報を再利用しません。
返信する
RTする
ふぁぼる
zzzelch
2011/11/25 15:55:45
私が言いたいのは、ある分野のテキストでの高い解析精度を必要最小限のアノテーションで実現できる枠組みの重要性です。点予測がよいということではありません。CRF でも SVM でも It's still a classifier to me.
http://t.co/P9iayiE5
返信する
RTする
ふぁぼる
zzzelch
2011/11/25 16:00:05
先ほどの実験結果に具体例を追加しました:
http://t.co/F9dubiRg
。コーパスを追加しないと解析できなかった単語は「なん」、「感じ」、「^^」。やっぱり口語的なものが多い。
返信する
RTする
ふぁぼる
neubig
2011/11/25 16:52:30
@zzzelch
字種は逆に足りないです。分かちがきに有効な方法ですが品詞はつらい。人名はひらがな、カタカナ何でもありですよ。
返信する
RTする
ふぁぼる
taku910
2011/11/25 18:11:40
Content from Twitter
残りを読む(24)
ブログへ
iframe版
拡張版
張付けプレビュー
Fav
6
あわせて読みたい
変体漢文の形態素解析について
PFIセミナー「形態素解析の過去現在未来」に関するコメント #pfiseminar
憲法はかくあるべきか。
「なう」の品詞ってなんですか?
『ステマ』『オワコン』『情弱』みたいに「対象を揶揄してるつもりでも使う側が思考停止してる..
powered by Preferred Infrastructure
コメント
個人的にはcrowd sourcingとの相性はどちらが良いのかが気になります。後ASRの分野適応にも。途中のANLP_NLPはANPI_NLPの事ですね。
返信
chezou
2011/11/27 20:53:23
0
コメントを入力してください。
Twitterにも投稿する
みんなのおすすめ商品
商品を編集
おすすめ商品を登録する
設定を変更する
まとめを作成する
プロフィール
フォローする
Software Engineer at Yahoo! JAPAN. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.
nokuno
link
twitter
rss
フォローされている
2
アップデート
まとめ
17
0
Google日本語入力についての個人的なまとめ
46
機械学習TL 〜教師ありと教師なしの違いとか,ロジスティ..
65
係り受け解析に文節の概念は必要か否か?
お気に入り
17
コメント
1
新着のまとめ
早稲田演劇週間、自分用まとめ
new
なんか素敵な無線LANが飛びまくってる
new
2012/5/31・16:00開始 経済産業省..
new
wktc25 2012 page.04 ---..
new
R473原田橋が通行止めで佐久間と浦川が分断
new
もっと見る
@togetter_jp
最近追加された商品
おひとりさまの幸せな死に方(エンディング) 孤立死、家族葬、納骨堂、イマドキのお葬式
新版風営適正化法ハンドブック
常盤平団地発信 孤独死ゼロ作戦―生きかたは選べる!
日本脱出 この国はあなたの資産を守ってくれない
財政危機と社会保障 (講談社現代新書)
オススメ
マイスター
トゥギャ通
InsideCHIKIRIN (ちきりん)氏の..
up
第20回ネットスクエアード東京ミートアップ:ソ..
new
「個人攻撃はあってはならない」と、全国紙に広告..
up
高橋健太郎さん、クラブカルチャーと風営法につい..
new
毎日新聞スクープ"核燃サイクル「秘密会議」"に..
(仮)女子あるあるネタ
up
もっと見る
#日韓W杯開幕当時の自分に言っても信じないこと..
new
みんなのかんがえたさいきょうの都道府県EVOL..
new
河本準一、妻の母も生活保護を受給!
new
恥と気高さ
new
クローズアップ現代「フィルム映画の灯を守りたい..
new
茂木健一郎(@kenichiromogi)さん..
new
もっと見る
第80回「日食写真と昭和格差」
号外「みんなの金環日食まとめ―画像から教養ま..
第79回「虚構新聞とJリーグ」
第78回「コンプガチャとIT系かあちゃん」
第77回「びろーんと自宅警備隊」
第76回「Appleとパンツクッキー」
もっと見る
コメント