ALAGIN 言語資源・音声資源サイト - 「と」コーパス概要

「と」コーパスの概要

契約書の入手及び記載方法等につきましては、右下の「ALAGIN会員」よりログイン頂く事で、右メニューより「「と」コーパス利用申請書・契約書」がご覧になれます。

※データ利用は ALAGIN会員に限定しております。
※入手に関しても契約が必要です。

データ概要

東京大学・知の構造化センターで作成され、高度言語情報融合フォーラム(ALAGIN)を通して配布するものです。

本データは、毎日新聞'95データ集を基にした京都大学テキストコーパス Version 4.0 の差分データで、京都大学テキストコーパス Version 4.0に現れる助詞「と」に対して新たなタグを付与したデータです。京都大学テキストコーパス Version 4.0 に現れる助詞「と」のそれぞれに、「述語の補語を構成する助詞」「修飾句を構成する助詞」等の助詞の機能を表すタグが付与されています。データの具体例につきましては「データの見方」をご参照ください。このデータは構文解析技術の学習用データもしくは評価用データとして利用することができます。

ご利用にあたっての注意事項

本データを利用するにあたっては以下の点にご留意下さい。

本データは京都大学テキストコーパス Version 4.0の差分データとなっています。京都大学テキストコーパスの情報は含まれておりません。
従って、本データベースを利用するためには京都大学テキストコーパス Version 4.0を別途ご用意下さい。
さらに、京都大学テキストコーパス Version 4.0は毎日新聞'95データ集を基に構築されますので、毎日新聞'95データ集も別途ご用意下さい。
京都大学テキストコーパス Version 4.0の利用にあたっては、京都大学が定める利用条件を遵守して行ってください。
毎日新聞'95データ集の利用にあたっては毎日新聞社が定める利用条件を遵守して行って下さい。

データの生成方法

必要なデータ・ツール：

毎日新聞'95データ集とマージした京都大学テキストコーパス version 4.0 が必要です。
詳細なマージ手順については京都大学テキストコーパス Version 4.0 のマニュアルをご覧下さい。
またマージ済み京都大学テキストコーパス version 4.0 に本コーパスのタグデータを追加するには perl (v5.8.1以降)が必要です。

生成手順：

本コーパスデータをダウンロードし適当な場所に展開します。
展開したディレクトリにて下記コマンドを実行すると、
本コーパスのディレクトリ/dat/jpc/ 以下に本コーパスのタグデータを追加したものが出力されます。

データの見方

対応する単語の行末に空白文字区切りでアノテーション結果が付与されます。

【例】
とと * 助詞格助詞 * * TO_ARGUMENT_NOMINAL
アノテータ間で一致の取れていないもの、またアノテータが候補を一つに絞りきれなかったものについては、/ 区切りで複数の候補が付与されます。

【例】
とと * 助詞格助詞 * * TO_ARGUMENT_NOMINAL/TO_ARGUMENT_CLAUSAL

以下にアノテーションの候補一覧を示します。
「その他」を表す ANOTHER を除いて、各候補は ”_” で三つのフィールドに区切られます。

フィールド1 ：対象の助詞の区分を表します

- TO	単独の出現「と」に対するアノテーション
- TOHA	複合助詞「とは」に対するアノテーション
- TOMO	複合助詞「とも」に対するアノテーション

フィールド2 ：対象の助詞の機能を表します

- ARGUMENT	述語の補語を構成
- MODIFIER	修飾句を構成
- PARALLEL	並立助詞
- ENDING	終助詞
- STARTING	文頭の出現
- DEFINING	定義文を構成
- ANOTHER	その他

フィールド3 対象の助詞の属性を表します

- NOMINAL	名詞句に後続
- CLAUSAL	用言的表現に後続
- CONJUNCT	従属接続詞
- ELLIPSIS	述部の省略
- IDIOMATIC	慣用表現やオノマトペを構成
- INVERSION	述語の補語の転置
- TOGETHER	「全て」の意味を付与

なお、フィールド3についてはTO_MODIFIER_NOMINAL+ELLIPSIS
のように + 区切りで複数の属性が付与される場合があります。

それぞれのフィールドが取り得る値は、左側のフィールド値に依存します。

TO	ARGUMENT	NOMINAL
	ARGUMENT	CLAUSAL
	MODIFIER	NOMINAL
		CLAUSAL
		ELLIPSIS
		CONJUNCT
		IDIOMATIC
	PARALLEL	NOMINAL
	PARALLEL	CLAUSAL
	ENDING	CLAUSAL
	ENDING	INVERSION
	STARTING	IDIOMATIC
	DEFINING	NOMINAL
	DEFINING	CLAUSAL

アノテータ間の不一致について

単独の「と」に関してはカッパ値で見ると 0.8 を超えていますが、アノテータ間の不一致が比較的多く見られます。これは例えば、本コーパスでは左側に接続する語句が名詞句であるか否かを属性として区別していますが、日本語では体言止めという表現が広く使用され、区別が難しいことが一つの原因です。また複合助詞については、そもそもの出現頻度が小さく、カッパ値が 0.6-0.7 に留まっていることから、実験的なデータとしての公開となります。

含まれているファイル

README : 説明ファイル
dat/num/ : アノテーションデータ
auto_conv : コーパス作成スクリプト（実行用）
src/ : コーパス作成スクリプト（本体）

参考文献

花岡洋輝, 増田勝也, 植松すみれ, 美馬秀樹，日本語助詞「と」コーパスの構築，言語処理学会第18回年次大会(NLP2012)予稿集, 2012年
Hiroki Hanaoka, Hideki Mima and Jun'ichi Tsujii. 2010. A Japanese Particle Corpus Built by Example-Based Annotation. Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10)

利用条件

詳しくは契約書および契約書の手引きをご参照下さい。
特に無断で二次配布を行わないよう十分ご注意下さい。