JPOコーパス一覧
特許庁と高度言語情報融合フォーラム(ALAGIN)が協力して研究者に提供しているデータセットです。
※データ利用は
ALAGIN会員
に限定しております。
※入手に関しても契約が必要です。
コーパス名 | 概要 | データセット種類 |
JPO・NICT |
英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです【詳細はこちら】 | ・3.5億件(約76G) ・0.1億件(約1.3G)※ |
JPO・NICT 韓日対訳コーパス |
韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです【詳細はこちら】 | ・0.8億件(約19G) ・0.1億件(約1.6G)※ |
JPO 中日対訳コーパス |
中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです【詳細はこちら】 | ・1.3億件(約26G) ・0.1億件(約1.4G)※ |
JPO 中日辞書 |
中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです【詳細はこちら】 | 約220万語対 (約190M) |
※0.1億件データはそれぞれのフルセットデータのサブセットとなります |
ご利用に当たっての注意事項
本データのご利用に当たっては以下の点にご注意ください。
1. データ利用は研究目的に限定されており、データの全てを用いた研究成果の提出が必要です。
2. ご提出いただく成果報告を公平に評価するために、データの全てをご利用いただくことが前提です。
フルセットのデータ量が多すぎる場合はひとまず0.1億件データのご利用をお勧めします。
3. データの商用利用は禁止されております。
データ提供方法
ALAGIN事務局より、データが格納されたHDDまたはメディアを貸し出しいたします。
問い合わせ窓口(ALAGIN事務局)
〒619-0289
京都府相楽郡精華町光台3-5
国立研究開発法人 情報通信研究機構 ALAGIN事務局
電話: 0774-98-6302
電子メール:info [at] alagin.jp
JPOコーパス概要
特許庁と高度言語情報融合フォーラム(ALAGIN)が協力して研究者に提供している各データセットの詳細です。
コーパスの利用方法や利用規約は、右下の「ALAGIN会員」よりログインいただくことで、右メニューより「申込方法・利用規約」がご覧になれます。
JPO・NICT英日対訳コーパス
「JPO・NICT英日対訳コーパス」は、英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです。JPO及びNICTは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。
●データ概要本データセットは、3.5億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。
(3.5億件データセット)
・英日対訳コーパスデータ合計約3億4795万文対 |
・英日機械翻訳品質評価用シート |
(0.1億件データセット)
・英日対訳コーパスデータ合計1000万文対 |
・英日機械翻訳品質評価用シート |
英日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 英語
の情報を含みます。
スコア |
値が大きいほど文と文の対応付け精度が高いことを意味する。 |
M-N |
文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは英語の文数。 |
文書ID |
どの文献対のどの部分から作成したコーパスかを示す。 |
国際特許分類 |
日本語の公報に付与されている国際特許分類の先頭のもの。 |
分野 |
分野を表すコード。 |
日本語 |
対応する文の日本語。 |
英語 |
対応する文の英語。 |
●データサイズ
・3.5億件データセット 約76GB
・0.1億件データセット 約1.3GB
JPO・NICT韓日対訳コーパス
「JPO・NICT韓日対訳コーパス」は、韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです。JPO及びNICTは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。
●データ概要本データセットは、0.8億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。
(0.8億件データセット)
・韓日対訳コーパスデータ合計約8346万文対 |
・韓日機械翻訳品質評価用シート |
(0.1億件データセット)
・韓日対訳コーパスデータ合計1000万文対 |
・韓日機械翻訳品質評価用シート |
韓日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 韓国語
の情報を含みます。
スコア |
値が大きいほど文と文の対応付け精度が高いことを意味する。 |
M-N |
文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは韓国語の文数。 |
文書ID |
どの文献対のどの部分から作成したコーパスかを示す。 |
国際特許分類 |
韓国語の公報に付与されている国際特許分類の先頭のもの。 |
分野 |
分野を表すコード。 |
日本語 |
対応する文の日本語。 |
韓国語 |
対応する文の韓国語。 |
●データサイズ
・0.8億件データセット 約19GB
・0.1億件データセット 約1.6GB
JPO中日対訳コーパス
「JPO中日対訳コーパス」は、中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。
●データ概要本データセットは、1.3億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。
(1.3億件データセット)
・中日対訳コーパスデータ合計約1億3285万文対 |
・中日機械翻訳品質評価用シート |
(0.1億件データセット)
・中日対訳コーパスデータ合計1000万文対 |
・中日機械翻訳品質評価用シート |
中日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 中国語
の情報を含みます。
スコア |
値が大きいほど文と文の対応付け精度が高いことを意味する。 |
M-N |
文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは中国語の文数。 |
文書ID |
どの文献対のどの部分から作成したコーパスかを示す。 |
国際特許分類 |
パテントファミリーから作成した対訳コーパスである場合は、日本語の公報に付与されている国際特許分類の先頭のもの。和文抄録データから作成した対訳コーパスである場合は、中国語の公報に付与されている国際特許分類の先頭のもの。 |
分野 |
分野を表すコード。 |
日本語 |
対応する文の日本語。 |
中国語 |
対応する文の中国語。 |
●データサイズ
・1.3億件データセット 約26GB
・0.1億件データセット 約1.4GB
JPO中日対訳辞書
「JPO中日対訳辞書」は、中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。
●データ概要本データセットは、以下の構成を含みます。
(1.3億件データセット)
・中日対訳辞書データ約220万語対 |
・中日機械翻訳品質評価用シート |
●データサイズ
・全データ 約190MB
中日対訳辞書データは、UTX1.11仕様に準拠しています。
本データの具体的な形式及びデータの作成方法については、以下の報告書をご参照ください。
・平成26年度 中国特許文献の機械翻訳のための辞書整備及び機械翻訳の品質評価に関する調査 報告書