日本語Wikipediaエントリの係り受けデータベース

日本語Wikipediaエントリの係り受けデータベースとは

本データベースは、日本語の大量（約6億ページ、約430億文、クロール時期は 2007年5月19日から11月13日）のWeb文書から、Wikipediaの記事のタイトル（エントリ）の内、二文節以上のもの（例：「三保の松原」「風と共に去りぬ」）に関する係り受けとその頻度を抽出したものです。通常の形態素解析・係り受け解析では、これらのエントリが複数の文節に分割されてしまうため、これまで高度言語情報融合フォーラム（ALAGIN）で公開してきた日本語係り受けデータベース (Version 1.0)では、これらのエントリに関する係り受け情報は含まれていませんでした。そこで、これらのエントリを形態素解析器の辞書に固有名詞として追加することで係り受けの抽出を可能にし、作成した係り受けデータが本データベースです。

なお、ウィキペディア日本語版は「クリエイティブ・コモンズ表示-継承ライセンス」の下で公開されているため、上記で辞書に追加したWikipediaのエントリを係り元、あるいは、係り先に含む係り受けデータを別ファイル（本データベース）として取り出し、同様の「クリエイティブ・コモンズ表示-継承ライセンス」の下で公開することにいたしました。

辞書に追加したWikipediaのエントリを、係り元にも、係り先にも含まない係り受けデータは、高度言語情報融合フォーラム（ALAGIN）より配布されている「日本語係り受けデータベース（Version 1.1）」に収録しております。詳しくは、 http://alaginrc.nict.go.jp/resources/nictmastar/resource-info/abstract.html#A-8 をご覧下さい。本データベースに含まれるDEP_WIKIPEDIA_1.0とALAGINより配布されているDEP_ALAGIN_V1.1.wikipedia.nowikipediaをマージすることにより、完全な係り受けデータベースを生成することができます。

ダウンロード

DEP_WIKIPEDIA_V1.0.tar.gz (569MB)

利用方法

DEP_WIKIPEDIA_V1.0.tar.gz を展開してできるディレクトリ中の DEP_WIKIPEDIA_V1.0.bz2 （圧縮時569MB、展開後3.5 GB）がデータベースの本体となります。ファイルフォーマットなど、詳しくは、ディレクトリ中の DEP_WIKIPEDIA_V1.0_README.doc をご覧下さい。

利用条件

本データベースは、ウィキペディア日本語版（http://ja.wikipedia.org）のデータを形態素解析器の辞書項目として利用し、国立研究開発法人情報通信研究機構が抽出した係り受けデータです。本データベースは、「Creative Commons Attribution-ShareAlike 3.0 Unported （クリエイティブ・コモンズ表示-継承ライセンス 3.0）」の下で利用可能です。ライセンスの詳細につきましては、http://creativecommons.org/licenses/by-sa/3.0/をご覧下さい。
また、本データベースのご利用に際しては、Wikipediaの著作権（英語）（http://en.wikipedia.org/wiki/Wikipedia:Copyrights）も熟読の上、著作権法を考慮の上、十分に注意をしてください。本データベースでは、Wikipediaに記載されたあらゆる記事タイトルを使用しています。本データベースをご利用の際は第三者への誹謗中傷、差別用語、個人情報などに十分な注意をお願いいたします。
なお、本データベースを「クリエイティブ・コモンズ表示-継承ライセンス　3.0」の下で利用する際の「表示」は、本データベースを利用したデータの説明書・ダウンロードページ、サービス等のWebページなどに、以下の表示をすることによって行ってください。

<データまたはサービス等の名称>は、ウィキペディア日本語版の情報等をベースとして国立研究開発法人情報通信研究機構が作成した「日本語Wikipediaエントリの係り受けデータベース」を
「Creative Commons Attribution-ShareAlike 3.0 Unported」による許諾の下で使用しております。「日本語Wikipediaエントリの係り受けデータベース」の詳細は、
http://alaginrc.nict.go.jp/wikidep をご覧下さい。

本データベースは、インターネットホームページ等、国立研究開発法人情報通信研究機構以外の第三者が作成した文書等のデータから、語彙の抽出及び統計処理等によって作成されたものです。そのため本データベースの内容は、国立研究開発法人情報通信研究機構の主体的な意思決定・判断を示すものではありません。本データベースの生成は、電子的な方法又は一様の選別基準による機械的判定によって行われています。そのため本データベースの内容の正確性、真実性及び相当性は一切保証されません。以上の理由により、国立研究開発法人情報通信研究機構は、本データベースの内容について、責任を負いかねます。本データベースの使用に関連して生ずる損失、損害等についても、一切責任を負いかねます。本データベースには、意図せず、第三者への誹謗中傷、差別用語、個人情報などが含まれている場合があります。本データベースを利用の際はこれらによる権利侵害に十分な注意をお願いいたします。利用者においては、本データベースの以上の特質をよくご理解の上で、本データベースをご利用下さい。

リンク

情報通信研究機構では、本データベースの他にも各種オープンソースツール・言語資源を公開しております。詳しくは、下記のサイトをご覧下さい。

NICT 情報分析研究室（2011年度より言語基盤グループから改称）
国立研究開発法人情報通信研究機構

日本語Wikipediaエントリの係り受けデータベース

目次