係り受け解析に文節の概念は必要か否か? - Togetter
Twitterのつぶやきマッシュアップメディア!
@togetter_jpをフォロー
マイページ
メニュー
設定
ログイン
トップ
ニュース
社会
地域
芸能・スポーツ
IT・Web
科学・教養
カルチャー
趣味
生活
仕事
ネタ・お笑い
ログ・日記
震災
311
東電
支援
支援物資
大喜利
岩上安身
放射能
速報
国内
アジア
アメリカ
ヨーロッパ
その他
政治
経済
国際
法律
環境
コラム
東京
東京近郊
北海道
東北
関東
北陸・信越
東海
近畿
中国・四国
九州・沖縄
海外
芸能
テレビ
ラジオ
野球
サッカー
ゴルフ
格闘技
競馬
モータースポーツ
その他
Android
Apple
インターネット
パソコン
モバイル
ガジェット
サイト制作
プログラミング
その他
科学
テクノロジー
エネルギー
数学
物理
宇宙
自然
人文
建築
心理
その他
アニメ
ゲーム
マンガ
アイドル
映画
音楽
書籍
演劇
ファッション
社会学
カメラ
車・バイク
電車
旅行
釣り
歴史
アート
デザイン
動物
その他
ハウツー
レシピ
グルメ
恋愛
マネー
節約
健康・医療
教育
ペット
起業・ベンチャー
経営
マーケティング
会計・人事
法務
就職・転職
語学・資格
ネタ
お笑い
大喜利
画像・動画
やってみた
その他
ログ
日記
思い出
雑談
メモ
飲み会
議事録
イベント
セミナー
復興
原発
支援
政府
自治体
トップ
>
科学・教養
>
テクノロジー
> 係り受け解析に文節の概念は必要か否か?
2011/07/21 23:38:59
科学・教養
テクノロジー
+
係り受け解析に文節の概念は必要か否か?
.
@zzzelch
さんと
@taku910
さんの長〜い議論もようやく収束してきたのでまとめます.
by
nokuno
16 fav
3533 view
Fav
16
お気に入りに登録ならここをクリック!
まとめ
メニューを開く
一括削除
日本語の係り受けが文節単位な件について。今やガラパゴスなんだがなぜか。京大コーパスが原因か。先行していて規模も大きいEDRコーパスは単語単位だった。言語資源の設計が言語処理を決めて来たと言って良いか思案中。機械学習屋さんは興味無かろうし。
返信する
RTする
ふぁぼる
zzzelch
2011/07/18 15:38:19
やっと明日の資料が出来た。言語屋さんにも機械学習屋さんにも色々できて楽しそうよ。単語単位の係り受け。文節単位はまあ、それはそれで良かったけど、不足というかサボってる感があるね。係り受けが交差したら困るとか、受身や使役の係り受けはどうすんねんとか。
返信する
RTする
ふぁぼる
zzzelch
2011/07/18 20:02:31
@zzzelch
文節単位が妥当だと思います。かな漢字変換も単語単位より文節単位のほうが日本語の性質をよくモデル化できます。また単語単位は曖昧ですが文節は曖昧性があまりありません。単語の切り方次第でどうにでも精度をごまかせるので単語単位では継続的かつ公平な評価ができません。
返信する
RTする
ふぁぼる
taku910
2011/07/18 22:44:32
文節単位の係り受け情報は単語単位のそれに概念含まれると思うよ。 ちなみに、仮名漢字変換の文節は係り受けの文節と同じではないでしょう。精度のごまかしを理由にするのはやめましょう。真理とは無関係でしょう。
@taku910
文節単位が妥当だと思います。(ry
返信する
RTする
ふぁぼる
zzzelch
2011/07/18 22:53:40
@zzzelch
文節単位が単語単位に含まれるのは文節内の係り受けの定義が明確に決まればでしょう? 少なくとも私には便宜的・機械的には定義できても、何が正解か分かりません。仮に機械的な定義しかないとしたら、それを評価して意味があるんですか? (多言語パーザでは意味がありますが)
返信する
RTする
ふぁぼる
taku910
2011/07/19 00:19:34
単語間の係り受けの基準は文節があろうがなかろうが必要ですね。ただ、部分的アノテーションでは、全てを網羅している必要はない。一部の複合名詞など、明確なのはある。
@taku910
文節単位が単語単位に含まれるのは文節内の係り受けの定義が明確に決まればでしょう? (ry
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 08:43:16
文節係り受けの後に、複合名詞や使役や受身(≒複合動詞)の解析が必要になるでしょう。文節という層を設けるかは、それほど重要ではないと思うよ。私は、simple is best という思考ですね。あとは、文節が心内に本当にあるか、あるいは学校文法の産物かという点。
@taku910
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 08:46:34
@zzzelch
現実的な話をすれば単語単位では精度が出せません。文節単位のいいところは単語の集合から単語の集合への係り受けになっていることです。もやっとした定義で文節内の単語係り受けは Don't care なので、素性の設計という意味で自由度があります。
返信する
RTする
ふぁぼる
taku910
2011/07/19 11:45:59
@zzzelch
文節の係り受けを決めているのは、統語的には格助詞、意味的には主辞です。単語係り受けだとこの関係を親子に分解してしまいます。そうなると、単語間係り受けを独立に推定するような1次の手法ではなくて、2次以上のモデルを最低でも使わないといけません。
返信する
RTする
ふぁぼる
taku910
2011/07/19 11:53:05
@zzzelch
現実的には二重表層格をとりにくいといった現象があって、文節レベルだとようやく2次のモデルが登場となります。こういう現象を単語でやろうとすると、兄弟の子供を見る必要があり、モデルの複雑性が増しデコードが困難になります。
返信する
RTする
ふぁぼる
taku910
2011/07/19 11:55:51
@zzzelch
高精度で現実的な時間でデコードできるパーザを作るためエラー分析などをつきつめていくと、文節とは言わないまでも局所的な言語現象を素性として表現せねばならず、それって文節文法と何が違うの?ってなことになりそうです。
返信する
RTする
ふぁぼる
taku910
2011/07/19 11:58:41
それがそうでもない。単に前後の単語を素性に入れればOK。格助詞の係り先の判断に、直前の単語が効く。それと格助詞との関係をしる必要はない。
@taku910
単語係り受けだとこの関係を親子に分解してしまいます。そうなると、単語間係り受けを独立に推定するような1次の手法ではなくて、
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 12:17:19
単語係り受けは、文節係り受けのほぼスーパーセットよ。
@taku910
高精度で現実的な時間でデコードできるパーザを作るためエラー分析などをつきつめていくと、文節とは言わないまでも局所的な言語現象を素性として表現せねばならず、それって文節文法と何が違うの?ってなことになりそうです。
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 12:18:32
現在、言語処理 = コーパス設計 + 機械学習 なので、総合設計を考えないといけません。特に、コーパス設計(作業を含む)は人間的なので、そう簡単ではない。
@taku910
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 12:24:48
グラフ理論にのっかって、コンピュータサイエンス的には単純化と思う。言語学的に一般性もある。
@taku910
ry) 文節レベルだとようやく2次のモデルが登場となります。こういう現象を単語でやろうとすると、兄弟の子供を見る必要があり、モデルの複雑性が増しデコードが困難になります。
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 12:27:59
文節係り受けって、単語係り受けとして見ると…。パターンマッチにより係り受け問題を文節内と外に分けて、文節内問題を解かず(あるいは右分岐として)、文節外問題を係り先の文節(単語列)までの曖昧性解消として解いている。単語係り受けは、残った問題も一気に解く。しかも、単純な定式化で。
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 12:35:24
ありがとう。読みます。ウイグル語とかもそうですね。言語モデル論文で空白で分けられた文字列を「単語」と読んでたりして、混沌としてます。
@murawaki
トルコ語が参考になるんじゃないかと思います。(ry)
http://t.co/ElV7w1e
(ry)
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 13:53:34
いいですね。単位を考えないといけないというところが。日本語は空白ないから避けられないです。
@murawaki
位格の -da などは名詞 şura にひっつけています。ただし、akıllısı や kızdır にあるような派生辞やコピュラは分割しています。自身に係る要素の(ry
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 14:48:33
@taku910
@zzzelch
単語単位の係り受けは有用な気がします…「日米中経済戦略会議」を解析して「経済戦略について日米中が会議をしている」ということが分かったり「NAIST東京事務所」を解析して「東京にあるNAISTの事務所」が分かったり。QAで役立ちそうです。
返信する
RTする
ふぁぼる
neubig
2011/07/19 15:33:40
国研での議論終了。単語単位の係り受けは、つけられれば嬉しいという雰囲気かな。要らなきゃ捨てればいい。でも、付いてれば無視する機械学習屋はおるまい。曰くそこにデータがあるから。
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 18:42:21
単語単位の確率的係り受けとかもどうっすか。PFI的には何か応用ない?OCaml でも ML でもいいよ。時代はErlang (ry
@unnonouno
昔書いた日本語係り受け解析器とかアップしようかなーと思ったら、全部ocamlで書かれてた。たしかにc++で書いたことない・・・
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 22:58:52
@zzzelch
係り受けと検索ってあまり相性よくないんですよね。もっと選択的に、つまり係り受けの種類を特定する、あるいは述語項構造を直接とれたほうがいいのかなーと思ってます
返信する
RTする
ふぁぼる
unnonouno
2011/07/19 23:12:31
@mamoruk
@caesar_wanya
@zzzelch
bow以上の情報が検索で有効な事例がたくさんある一方で、係り受けだけでは案外それらを解決してくれていないように感じます。もう少し上流の情報をリーズナブルに取れたらいいなと思います
返信する
RTする
ふぁぼる
unnonouno
2011/07/19 23:42:11
大学の先生は問題を解いたことにするのが仕事ですからね。
@Tzawa
@unnonouno
@mamoruk
@caesar_wanya
TSUBAKIが解決してくれた・・・、ことになってる・・・、はず・・・ RT bow以上の情報が検索で有効な事例がたくさんある一方で、(ry
返信する
RTする
ふぁぼる
zzzelch
2011/07/19 23:50:00
@Tzawa
TSUBAKIはボクの中のアプリケーションのイメージのひとつになってますよ
返信する
RTする
ふぁぼる
unnonouno
2011/07/19 23:50:45
Content from Twitter
残りを読む(94)
ブログへ
iframe版
拡張版
張付けプレビュー
Fav
16
あわせて読みたい
【これはひどい】15年前のATOK12よりgoogleIMEの方がクソだった
追い込まれてる人らによる「恐怖」概念について
「萌え」概念を考える
RTは同意を表す公共的概念
「創発」の概念について
powered by Preferred Infrastructure
コメント
コメントを入力してください。
Twitterにも投稿する
みんなのおすすめ商品
商品を編集
おすすめ商品を登録する
設定を変更する
まとめを作成する
プロフィール
フォローする
Software Engineer at Yahoo! JAPAN. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.
nokuno
link
twitter
rss
フォローされている
2
アップデート
まとめ
17
0
Google日本語入力についての個人的なまとめ
46
機械学習TL 〜教師ありと教師なしの違いとか,ロジスティ..
65
係り受け解析に文節の概念は必要か否か?
お気に入り
17
コメント
1
新着のまとめ
みんなのかんがえたさいきょうの都道府県EVOL..
new
レイヤーさんかな?って思う場合の特徴
new
混沌超人エルリックマン
new
美学校特別講座「中ザワヒデキ文献研究番外篇」第..
new
テント村運動の意義と結果
new
もっと見る
@togetter_jp
最近追加された商品
「新藤兼人 百年の軌跡」オリジナルロゴ入り記念ファイル (透明)
午後の遺言状 [DVD]
わが道 [DVD]
著作権判例百選 第4版 (別冊ジュリスト)
映画プレスシート★『石内尋常高等小学校 花は散れども』/新藤兼人監督、柄本明、豊川悦司、大竹しのぶ
オススメ
マイスター
トゥギャ通
『私がグーグルマップとフォトショップを使って「..
立憲主義を知らない自民党「憲法起草」委事務局長..
TEDを使ってリーディング・リスニング・ライテ..
「放射能汚染地域に住む人の血って、ほしいですか..
“北九州、瓦礫焼却による放射能拡散予想図”は「..
クラブに全く興味がない人と風営法について会話し..
もっと見る
河本準一、妻の母も生活保護を受給!
new
恥と気高さ
new
クローズアップ現代「フィルム映画の灯を守りたい..
new
茂木健一郎(@kenichiromogi)さん..
new
袁紹の用兵の才能と分かり易い『官渡の戦い』
new
タイバニ当落メールが遅い理由を考えてみた まとめ
new
もっと見る
第80回「日食写真と昭和格差」
号外「みんなの金環日食まとめ―画像から教養ま..
第79回「虚構新聞とJリーグ」
第78回「コンプガチャとIT系かあちゃん」
第77回「びろーんと自宅警備隊」
第76回「Appleとパンツクッキー」
もっと見る
コメント