日本語係り受け解析の可視化

日本語解析に「カンどころ」を掴みたいと思って、日本語係り受け解析の可視化にチャレンジした。「形態素解析」は文章を最小単位に分割して品詞などを解析するシステムであることと比較して「係り受け解析」は構文解析であって、文章の「意味」を調べる第一歩でもあるんだね。

さて、Wordpree(このサイトを運用しているシステム)の拡張として作ってはいるけど、中身は「Yahoo! テキスト解析 Web API」を利用したものです。

文章を入力して試してみてください。
下部にツリー構造が表示されます。
[da_tree]


係り受け解析と主語廃止論と要約

初めて「係り受け解析」に触れたとき、三上章の「主語廃止論」と相性が良いんじゃないか!? というインスピレーションが沸いたのを覚えている。

例えば「猿が犬に雉を紹介した。」という文章を解析してみると

  • 猿が紹介した。
  • 犬に紹介した。
  • 雉を紹介した。

という(主語&述語というより)「題目&述部」としてシンプルで明快な構成に分解できるのは、とても魅力的だ。
だって「猿が犬に雉を紹介した。」を短く要約しなさい…というとき(どの枝:ノードを選択するかという課題はあるけど)もう、60%ぐらいに要約できているのだから。

とはいえ、日本語解析の難しさに突き当たる

でもまぁ、そんな単純でもない。
「主語廃止論」はそもそも助詞がどうだ、といったアプローチではなく「題目」は何?という着目だから、助詞で構造を変えてしまう係り受け解析と相いれない事がわかった。

また、係り受け解析の全段階で使用する「形態素解析」の精度や癖に大きく影響される。

例えば、下記の解析結果は、単純に「題目」を切り出せていない。
「日本語解析に「カンどころ」を掴みたいと思った。」

述部が「思った」だとすると、題目はおそらく

  • 日本語解析に(思った)
  • 「カンどころ」を(思った)
  • 掴みたいと(思った)

となってほしいところなんだよね。