理系の気ままメモ

自分の興味のあることや発見したことや思ったことなどを自由気ままに書くブログ。

機能語辞書について

機能語辞書として使えそうなもの以下の2つを見つけることができました。

  • 日本語機能表現辞書「つつじ」
    • 松吉 俊佐藤 理史宇津呂 武仁, 日本語機能表現辞書の編纂自然言語処理, 2007, 14 巻, 5 号, p. 123-146, 公開日 2011/03/01, Online ISSN 2185-8314, Print ISSN 1340-7619
  • 機能語用例文データベース「はごろも」
    • 日本語文法項目用例文データベース『はごろも』(http://hgrm.jpn.org
    • 堀恵子・江田すみれ(2011)「web公開予定文法用例検索システム『日本語文法項目用例文データベース』の文法項目選定について」『日本語教育学会2011年度春季大会予稿集』

 

それぞれの概要について紹介します。

日本語機能表現辞書「つつじ」

  • この機能表現辞書では計算機で利用することを想定している。
  • 日本語には複数の形態素からなる、1つの機能を持った「複合辞」が多く存在する。
  • この論文では、機能語と複合辞を合わせて「機能表現」と呼ぶ。
  • 機能表現の異形(活用など)をほぼすべて収録。
  • 機能表現の異形を体系的に扱うため、見出し体系を9つの階層からなる階層構造で収録。
  • 辞書には、341の見出し語と15,771の出現形が収録。

機能語用例文データベース「はごろも」

  • 人間が利用することを想定。
  • 計算機(自然言語処理)で利用することを想定していない。
  • 日本語教師、海外の非母語話者日本語教師、日本語学習者の支援を目的に作成された。
  • 見出し語は旧JLPT*1の「出題基準」など5つの資料から選んだ1,848語。

 

以上のことから、自然言語処理として利用する場合は「つつじ」のほうが適切であると考えられる。しかし、現在のところ日本語機能表現辞書「つつじ」はダウンロードサイトが無くなってしまっている。

日本語機能表現の処理

Research Topics: Processing Japanese Functional Expressions

日本語機能表現辞書「つつじ」ダウンロードサイト

http://kotoba.nuee.nagoya-u.ac.jp/tsutsuji/

 

一方、機能語用例文データベース「はごろも」は利用可能であるため「つつじ」が復活するまではこちらで代用するしかないと思われる。

機能語用例文データベース はごろも