JPOコーパス概要

特許庁と高度言語情報融合フォーラム(ALAGIN)が協力して研究者に提供している各データセットの詳細です。

コーパスの利用方法や利用規約は、右下の「ALAGIN会員」よりログインいただくことで、右メニューより「申込方法・利用規約」がご覧になれます。

JPO・NICT英日対訳コーパス

「JPO・NICT英日対訳コーパス」は、英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです。JPO及びNICTは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。

●データ概要

  本データセットは、3.5億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。

(3.5億件データセット)

・英日対訳コーパスデータ合計約3億4795万文対
 (化学約1億2813万文対、電気約8647万文対、機械約 4532万文対、物理約8803万文対)

・英日機械翻訳品質評価用シート

(0.1億件データセット)

・英日対訳コーパスデータ合計1000万文対
 (化学250万文対、電気250万文対、機械250万文対、物理250万文対)

・英日機械翻訳品質評価用シート

英日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 英語
の情報を含みます。

スコア

値が大きいほど文と文の対応付け精度が高いことを意味する。
(参考文献)
Masao Utiyama and Hitoshi Isahara. (2007)
A Japanese-English Patent Parallel Corpus. MT summit XI.

M-N

文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは英語の文数。

文書ID

どの文献対のどの部分から作成したコーパスかを示す。
具体的には、
JPXXX…XXXA_US YYY…YYY A1_ ZZZ
の形式となっている。
ここで、JPXXX…XXXAは日本語の公報の番号、US YYY…YYY A1は英語の公報の番号、ZZZは公報のどの部分から作成した対訳コーパスであるか(tit:発明の名称、abs:要約、clm:請求項、des:明細書)を示す。

国際特許分類

日本語の公報に付与されている国際特許分類の先頭のもの。

分野

分野を表すコード。
C00:化学, E00:電気 ,M00:機械, P00:物理
コードはIPCに基づいて作成されている。

日本語

対応する文の日本語。

英語

対応する文の英語。

●データサイズ

    ・3.5億件データセット  約76GB

    ・0.1億件データセット  約1.3GB

JPO・NICT韓日対訳コーパス

「JPO・NICT韓日対訳コーパス」は、韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです。JPO及びNICTは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。

●データ概要

  本データセットは、0.8億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。

(0.8億件データセット)

・韓日対訳コーパスデータ合計約8346万文対
 (化学約3370万文対、電気約2347万文対、機械約823万文対、物理約1806万文対)

・韓日機械翻訳品質評価用シート

(0.1億件データセット)

・韓日対訳コーパスデータ合計1000万文対
 (化学250万文対、電気250万文対、機械250万文対、物理250万文対)

・韓日機械翻訳品質評価用シート

韓日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 韓国語
の情報を含みます。

スコア

値が大きいほど文と文の対応付け精度が高いことを意味する。
(参考文献)
Masao Utiyama and Hitoshi Isahara. (2007)
A Japanese-English Patent Parallel Corpus. MT summit XI.

M-N

文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは韓国語の文数。

文書ID

どの文献対のどの部分から作成したコーパスかを示す。
具体的には、
JPXXX…XXXA_KR YYY…YYY A1_ ZZZ
の形式となっている。
ここで、JPXXX…XXXAは日本語の公報の番号、KR YYY…YYY A1は韓国語の公報の番号、ZZZは公報のどの部分から作成した対訳コーパスであるか(tit:発明の名称、abs:要約、clm:請求項、des:明細書)を示す。

国際特許分類

韓国語の公報に付与されている国際特許分類の先頭のもの。

分野

分野を表すコード。
C00:化学, E00:電気 ,M00:機械, P00:物理
コードはIPCに基づいて作成されている。

日本語

対応する文の日本語。

韓国語

対応する文の韓国語。

●データサイズ

    ・0.8億件データセット  約19GB

    ・0.1億件データセット  約1.6GB

JPO中日対訳コーパス

「JPO中日対訳コーパス」は、中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。

●データ概要

  本データセットは、1.3億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。

(1.3億件データセット)

・中日対訳コーパスデータ合計約1億3285万文対
 (化学約5074文対、電気約3474万文対、機械約1632万文対、物理約3105万文対)

・中日機械翻訳品質評価用シート

(0.1億件データセット)

・中日対訳コーパスデータ合計1000万文対
 (化学250文対、電気250万文対、機械250万文対、物理250万文対)

・中日機械翻訳品質評価用シート

中日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 中国語
の情報を含みます。

スコア

値が大きいほど文と文の対応付け精度が高いことを意味する。
(参考文献)
Masao Utiyama and Hitoshi Isahara. (2007)
A Japanese-English Patent Parallel Corpus. MT summit XI.

M-N

文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは中国語の文数。

文書ID

どの文献対のどの部分から作成したコーパスかを示す。
項目は作成元のデータにより以下の2つ形式のいずれかとなっている。
【形式1】CNAXXX…XXX_JPAYYY…YYY_ZZZ
(パテントファミリーから作成した対訳コーパスである場合)
ここで、CNAXXX…XXXは中国語の公報の番号、JPAYYY…YYYは日本語の公報の番号、ZZZは公報のどの部分から作成した対訳コーパスであるか(tit:発明の名称、abs:要約、clm:請求項、des:明細書)を示す。
【形式2】CNAXXX…XXX_YYYY YYYY _ZZZ
(和文抄録データから作成した対訳コーパスである場合)
ここで、CNAXXX…XXXは中国語の公報の番号、YYY…YYYは”syouroku”固定、ZZZは公報のどの部分から作成した対訳コーパスであるか(tit:発明の名称、abs:要約)を示す。

国際特許分類

パテントファミリーから作成した対訳コーパスである場合は、日本語の公報に付与されている国際特許分類の先頭のもの。和文抄録データから作成した対訳コーパスである場合は、中国語の公報に付与されている国際特許分類の先頭のもの。

分野

分野を表すコード。
C00:化学, E00:電気 ,M00:機械, P00:物理
コードはIPCに基づいて作成されている。

日本語

対応する文の日本語。

中国語

対応する文の中国語。

●データサイズ

    ・1.3億件データセット  約26GB

    ・0.1億件データセット  約1.4GB

JPO中日対訳辞書

「JPO中日対訳辞書」は、中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。

●データ概要

  本データセットは、以下の構成を含みます。

(1.3億件データセット)

・中日対訳辞書データ約220万語対

・中日機械翻訳品質評価用シート

●データサイズ

    ・全データ  約190MB

中日対訳辞書データは、UTX1.11仕様に準拠しています。
本データの具体的な形式及びデータの作成方法については、以下の報告書をご参照ください。

 ・平成26年度 中国特許文献の機械翻訳のための辞書整備及び機械翻訳の品質評価に関する調査 報告書