NICT 格助詞変換データ

概要

本データベースは、毎日新聞'95データ集を基にした京都大学テキストコーパス Version 3.0の差分データで、京都大学テキストコーパス Version 3.0に現れる助詞（格助詞、副助詞）に対して新たなタグを付与するデータです。具体的には以下の三種類のデータが収録されています。

使役文・受身文の能動文への変換における格助詞変換データ
受身文の能動文への変換における格助詞変換データ
格解析用データ

「使役文・受身文の能動文への変換における格助詞変換データ」は京都大学テキストコーパス Version3.0のデータ中に現れる受身文および使役文を能動文に変換した場合に、元の格助詞がどのような格助詞に変換されるべきかを表すタグが付与されています。

「受身文の能動文への変換における格助詞変換データ」は京都大学テキストコーパス Version3.0のデータ中に現れる受身文のみを対象に、それを能動文に変換した場合に、元の格助詞がどのような格助詞に変換されるべきかを表すタグが付与されています。

「格解析用データ」は、京都大学テキストコーパス Version3.0に出現する副助詞「は」に関して、それを格解析した場合に出力されるべき正解の格助詞を付与したデータと、同コーパスに出現する連体修飾節の述語とその述語が修飾する名詞の格関係を解析した場合に出力されるべき正解の格助詞を付与したデータが収められています。

各データの具体例につきましては「データの見方」をご参照ください。

これらのデータは受身文等を能動文に自動的に変換する技術や格解析技術の学習用データもしくは評価用データとして利用することができます。

ご利用にあたっての注意事項

本データベースを利用するにあたっては以下の点にご留意下さい。

本データベースは京都大学テキストコーパス Version 3.0の差分データとなっています。京都大学テキストコーパスの情報は含まれておりません。従って、本データベースを利用するためには京都大学テキストコーパス Version 3.0を別途ご用意下さい。
さらに、京都大学テキストコーパス Version 3.0は毎日新聞'95データ集を基に構築されますので、毎日新聞'95データ集も別途ご用意下さい。
京都大学テキストコーパス Version 3.0の利用にあたっては、京都大学が定める利用条件を遵守して行ってください。
毎日新聞'95データ集の利用にあたっては毎日新聞社が定める利用条件を遵守して行って下さい。

ダウンロード

NICT 格助詞変換データ Version 1.1 kaku1.1.tar.gz
NICT 格助詞変換データ Version 1.0 kaku1.0.tar.gz

データの生成方法

データの生成環境

OS: Linux（CentOS 5.5で動作確認）
メモリ: 4GBで動作確認

データの生成に必要なツール・データ

京都大学テキストコーパス Version 3.0から本データを生成する際にはLinuxで通常利用できるコマンドのみ必要で、特別なツールは不要です。ただし、毎日新聞'95データ集から京都大学テキストコーパス Version 3.0を生成するには以下のツールが必要です。詳細な生成手順については京都大学テキストコーパス Version 3.0のマニュアルをご覧下さい。

jperl（Version 5.005_03-20000401; EUC version で動作確認）
nkf (Version 2.1.2で動作確認）

現在、Linux用のコンパイル済みjperlは入手が困難です。jperlを新たに入手する必要のある方のために、以下のリンクからjperlのソースコードを再配布します。

jperl (再配布)

jperlのコンパイルにあたっては上記リンクに書かれている手順での動作を確認しています。なお、上記リンクから入手、コンパイルしたjperlの動作の保証は一切いたしません。

また、本データベースは後述するように"Creative Commons Attribution-ShareAlike 3.0 Unported" (CC BY-SA 3.0) "の下で利用可能ですが、jperlはNICTが作成したものではなく、CC BY-SA 3.0は適用されません。詳しくは上記ページをご覧下さい。

データの生成方法

以下では、まず「使役文・受身文の能動文への変換における格助詞変換データ」を例にとって手順を説明します。

毎日新聞'95データ集から京都大学テキストコーパス Version3.0を生成します。生成方法については本ページでは割愛します。京都大学テキストコーパス Version3.0のマニュアルを参照してください。
京都大学テキストコーパス Version 3.0を生成して、dat/ディレクトリ以下に950101.KNPから950117.KNPまでの16個のファイルが生成されていることを確認します。16個のファイルを順にそのままつなげた1つのファイルを作ります。それを9501.KNPと呼びます。
```
% cd dat
% ls *[0-9].KNP 
950101.KNP  950105.KNP  950108.KNP  950111.KNP  950114.KNP  950117.KNP
950103.KNP  950106.KNP  950109.KNP  950112.KNP  950115.KNP
950104.KNP  950107.KNP  950110.KNP  950113.KNP  950116.KNP

% cat *[0-9].KNP > 9501.KNP
```
「使役文・受身文の能動文への変換における格助詞変換データ」を適当な場所にダウンロードし、展開します。展開後、koukai-shieki-ukemi/ディレクトリに移動します。koukai-shieki-ukemi/9501.diff が京都大学テキストコーパス Version 3.0から「使役文・受身文の能動文への変換における格助詞変換データ」を生成するための差分データになります。
```
% tar zxvf kakuX.X.tar.gz # "X.X"はバージョン番号を表します。
% cd kakuX.X/koukai-shieki-ukemi   
```
2.で生成した9501.KNPをkoukai-shieki-ukemi/ディレクトリにコピーします。
9501.KNP と 9501.diff は同じ行数のファイルであり、9501.KNP の各行の最後に 9501.diff を追加します。これで受身文の能動文への変換における格助詞変換データができあがります。以下では生成したファイル名を9501.outとしています。
```
% paste 9501.KNP 9501.diff > 9501.out
```

「受身文の能動文への変換における格助詞変換データ」および「格解析用データ」の場合も上記と同様に生成します。各データの差分ファイル(*.diff)を、9501.KNP の各行の最後に追加し、各データを生成してください。「格解析用データ」は差分ファイルが2つあるので、それぞれにのファイルに対して、9501.KNP の各行の最後に差分ファイルを追加します。

生成されたデータのMD5 ハッシュチェックサムを以下に記してあります。正常にデータが生成されたかどうか確認するために参照して下さい。

生成されたファイルのMD5 ハッシュチェックサム

データ名	MD5 ハッシュチェックサム
9501.KNP	27f5811f137744859f2527fdc3125e91
使役文・受身文の能動文への変換における格助詞変換データ	d5fc18566c754cf0689876c3e826c76c
受身文の能動文への変換における格助詞変換データ	ddf01da5adb4c16ab3de3bc94759a09b
格解析用データ(9501-rentai)	c6bc4675e41a8e5af84cccf7a8289c2e
格解析用データ(9501-shudai)	02913b30992d053790e404ae25311013

データの見方

「使役文・受身文の能動文への変換における格助詞変換データ」および「受身文の能動文への変換における格助詞変換データ」

生成したデータを「9501.out」と呼ぶこととします。9501.outは、9501.KNPに対して、

addnoudou 助詞1 助詞2

が追加されたデータであり、上記の追加された文節の係り先の文節が、使役文や受身文になっています。その追加された文節では、元の文の格助詞である「助詞1」が、能動文にした場合には「助詞2」に変化することを意味します。以下に生成した例を示します。

* 0 1D addnoudou が を
離党 りとう * 名詞 サ変名詞 * *
が が * 助詞 格助詞 * *
* 1 2D 
うわさ うわさ * 名詞 サ変名詞 * * 
さ さ する 動詞 * サ変動詞 未然形 
れて れて れる 接尾辞 動詞性接尾辞 母音動詞 タ系連用テ形^
いる いる いる 接尾辞 動詞性接尾辞 母音動詞 基本形

上の例において、タグの追加された元の文節が「離党が」で、その文節の係り先の文節が「うわさされている」とします。このとき、"addnoudou がを" は係り先の文節を能動文にした場合に、「が」が「を」に変化し、「離党をうわさしている」と書き換えられることを意味します

なお、下の例のように、「_」の記号をセパレータとして複数の助詞を記載している場合はそのどちらの格助詞に変更することもありうることを意味します。

addnoudou で が_に

「格解析用データ」

以下では、9501-shudai.diffから生成したデータを9501-shudai.out、9501-rentai.diffから生成したデータを9501-rentai.outと呼びます。まず9501-shudai.outは

addnoudou 助詞等

が追加されたデータであり、上記の追加された文節の副助詞「は」について格解析した場合に想定される格助詞を「助詞等」としてローマ字表記で付与しています。

例えば下の例における"addnoudou ni"というタグでは「考え方は違いがない」という文が「考え方に違いがない」と書き換えられることから、元の文の主題「は」を格解析した時に想定される格が「二格」であることを表しています。

* 5 7D   addnoudou ni
考え方 かんがえかた * 名詞 普通名詞 * * 
は は * 助詞 副助詞 * * 
* 6 7D 
違い ちがい * 名詞 普通名詞 * * 
が が * 助詞 格助詞 * * 
* 7 8D 
ない ない ない 形容詞 * イ形容詞アウオ段 基本形

9501-rentai.outは、9501.KNPに対して、

addnoudou 助詞等

が追加されたデータです。上記の追加された文節は必ず連体修飾節の述語になります。その述語が修飾する名詞を格解析した場合に想定される格助詞を「助詞等」としてローマ字表記で付与しています。

例えば下の例の"addnoudou ga" は、連体修飾節の述語「漂流する」とその述語が修飾する名詞「政治」の間にはガ格の関係が認められることを表しています。（言い換えると、連体修飾節を伴う名詞句「漂流する政治」を文に直した時、「政治が漂流する」と書き換えることができる事を表しています）

* 0 1D   addnoudou ga
漂流 ひょうりゅう * 名詞 サ変名詞 * *   
する する する 動詞 * サ変動詞 基本形   
* 1 2D  
政治 せいじ * 名詞 普通名詞 * *

なお、「助詞等」の部分が otherと書かれている場合は格助詞に相当しない場合を意味します。また、「_」の記号をセパレータとして複数の助詞を記載している場合はそのどちらの格助詞に変更することもありうることを意味します。

データの構築方法と内訳について

「使役文・受身文の能動文への変換における格助詞変換データ」、「受身文の能動文への変換における格助詞変換データ」、「格解析用データ」は全て、京都大学テキストコーパス Version 3.0のうち、社説ばかり集めて構築されている部分を除く、毎日新聞（1995年）のおよそ2万文の文章からなる部分が用いられています。「使役文・受身文の能動文への変換における格助詞変換データ」については、その約2万文から人手で受身文、使役文を抽出し、そこに含まれる4,671の格助詞に対してタグ付けがされています ([文献1]を参照)。「受身文の能動文への変換における格助詞変換データ」では、受け身文を抽出し、さらにKNPで係り受け関係を解析した結果、対象の格助詞と受身の動詞の係り受け関係が正しく解析できた、3,576の格助詞についてタグ付けがされています (文献[2]を参照)。「格解析用データ」も、他の二つのデータと同様に、2万文に含まれる全ての副助詞「は」（12,839事例）、および連体修飾節（9,501事例）についてタグ付けがされています（文献[3]を参照）。

データ名	事例数
使役文・受身文の能動文への変換における格助詞変換データ	4,671
受身文の能動文への変換における格助詞変換データ	3,576
格解析用データ（副助詞「は」）	12,839
各解析用データ（連体修飾節）	9,501

参考文献

[文献1] 村田真樹，金丸敏幸，白土保，井佐原均, 入力文の格助詞ごとに学習データを分割した機械学習による受身文の能動文への変換における格助詞の変換システム制御情報学会論文誌, Vol. 21, No. 6, p.165-175, 2008年.
[文献2] 村田真樹，井佐原均, 受け身／使役文の能動文への変換における機械学習を用いた格助詞の変換, 情報処理学会自然言語処理研究会 2002-NL-149, 2002年.
[文献3] 村田真樹，井佐原均, 機械学習を用いた日本語格解析 --- 教師信号借用型と非借用型, 情報処理学会自然言語処理研究会 2001-NL-144, 2001年．

このパッケージに含まれているファイル

koukai-kaku/	9501-rentai.diff	連体修飾の述語に対して、格解析した場合に想定される格助詞を付与した差分データ
	9501-shudai.diff	副助詞「は」について格解析した場合に想定される格助詞を付与した差分データ
	README-euc	格解析用データの説明書
koukai-shieki-ukemi/	9501.diff	受身文および使役文を能動文に変換した場合に、元の格助詞がどのような格助詞に変換されるべきかを表すタグを付与した差分データ
koukai-shieki-ukemi/	README-euc	使役文・受身文の能動文への変換における格助詞変換データの説明書
koukai-ukemi/	9501.diff	受身文を能動文に変換した場合に、元の格助詞がどのような格助詞に変換されるべきかを表すタグを付与した差分データ
koukai-ukemi/	README-euc	受身文の能動文への変換における格助詞変換データの説明書

利用条件

本データベースは"Creative Commons Attribution-ShareAlike 3.0 Unported" (CC BY-SA 3.0) の下で利用可能です。ライセンスの詳細につきましてはhttp://creativecommons.org/licenses/by-sa/3.0/をご覧下さい。

本データベースを "Creative Commons Attribution-ShareAlike 3.0 Unported" の下で利用する際の"Attribution" （表示）は、本データベースを利用したデータの説明書・ダウンロードページ、サービス等のWebページなどに、以下の表示をすることによって行ってください。

<データまたはサービス等の名称>は、（独）情報通信研究機構が作成した「NICT 格助詞変換データ」を
 "Creative Commons Attribution-ShareAlike 3.0 Unported" による許諾の下で使用しております。
「NICT 格助詞変換データ」の詳細はhttp://alaginrc.nict.go.jp/をご覧下さい。

なお、本データは単独では "Creative Commons Attribution-ShareAlike 3.0 Unported" が付与されていますが、「毎日新聞'95データ集」および「京都大学テキストコーパス Version 3.0」から生成したデータに関しては、「毎日新聞'95データ集」および「京都大学テキストコーパス Version 3.0」それぞれの利用規約にも従う必要があります。

本データベースの内容は、国立研究開発法人情報通信研究機構の主体的な意思決定・判断を示すものではありません。また、本データベースの内容の正確性、真実性及び相当性について一切保証されません。以上の理由により、国立研究開発法人情報通信研究機構は、本データベースの内容について、責任を負いかねます。本データベースの使用に関連して生ずる損失、損害等についても、一切責任を負いかねます。本データベースには、意図せず、第三者への誹謗中傷、差別用語、個人情報などが含まれている場合があります。本データベースを利用の際はこれらによる権利侵害に十分な注意をお願いいたします。利用者においては、本データベースの以上の特質をよくご理解の上で、本データベースをご利用下さい。

情報通信研究機構では、本データベースの他にも各種オープンソースツール・言語資源を公開しております。詳しくは、下記のサイトをご覧下さい。

高度言語情報融合フォーラム ALAGIN 言語資源サイト
- 上記サイトで公開しているその他のオープンソースツール
- 上記サイトで公開しているその他の言語資源

謝辞

Version 1.0からVersion 1.1への修正は笹野遼平氏のご指摘をもとにしたものです。この場をお借りして感謝いたします。

NICT 格助詞変換データ

目次

概要

新着情報

ご利用にあたっての注意事項

ダウンロード

データの生成方法

データの生成環境

データの生成に必要なツール・データ

データの生成方法

生成されたファイルのMD5 ハッシュチェックサム

データの見方

「使役文・受身文の能動文への変換における格助詞変換データ」および「受身文の能動文への変換における格助詞変換データ」

「格解析用データ」

データの構築方法と内訳について

参考文献

このパッケージに含まれているファイル

利用条件

謝辞