日本語Wikipediaエントリの係り受けデータベース


目次


日本語Wikipediaエントリの係り受けデータベースとは


本データベースは、日本語の大量(約6億ページ、約430億文、クロール時期は 2007年5月19日から11月13日)のWeb文書から、Wikipediaの記事のタイトル(エントリ)の内、二文節以上のもの(例:「三保の松原」「風と共に去りぬ」)に関する係り受けとその頻度を抽出したものです。通常の形態素解析・係り受け解析では、これらのエントリが複数の文節に分割されてしまうため、これまで高度言語情報融合フォーラム(ALAGIN)で公開してきた日本語係り受けデータベース (Version 1.0)では、これらのエントリに関する係り受け情報は含まれていませんでした。そこで、これらのエントリを形態素解析器の辞書に固有名詞として追加することで係り受けの抽出を可能にし、作成した係り受けデータが本データベースです。

なお、ウィキペディア日本語版は「クリエイティブ・コモンズ 表示-継承ライセンス」の下で公開されているため、上記で辞書に追加したWikipediaのエントリを係り元、あるいは、係り先に含む係り受けデータを別ファイル(本データベース)として取り出し、同様の「クリエイティブ・コモンズ 表示-継承ライセンス」の下で公開することにいたしました。

辞書に追加したWikipediaのエントリを、係り元にも、係り先にも含まない係り受けデータは、高度言語情報融合フォーラム(ALAGIN)より配布されている「日本語係り受けデータベース(Version 1.1)」に収録しております。詳しくは、 http://alaginrc.nict.go.jp/resources/nictmastar/resource-info/abstract.html#A-8 をご覧下さい。本データベースに含まれるDEP_WIKIPEDIA_1.0とALAGINより配布されているDEP_ALAGIN_V1.1.wikipedia.nowikipediaをマージすることにより、完全な係り受けデータベースを生成することができます。

新着情報



ダウンロード


利用方法


DEP_WIKIPEDIA_V1.0.tar.gz を展開してできるディレクトリ中の DEP_WIKIPEDIA_V1.0.bz2 (圧縮時569MB、展開後3.5 GB)がデータベースの本体となります。ファイルフォーマットなど、詳しくは、ディレクトリ中の DEP_WIKIPEDIA_V1.0_README.doc をご覧下さい。

利用条件


クリエイティブ・コモンズ・ライセンス

リンク


情報通信研究機構では、本データベースの他にも各種オープンソースツール・言語資源を公開しております。詳しくは、下記のサイトをご覧下さい。

NICT 情報分析研究室(2011年度より言語基盤グループから改称)
国立研究開発法人情報通信研究機構