JPOコーパス一覧

特許庁と高度言語情報融合フォーラム(ALAGIN)が協力して研究者に提供しているデータセットです。

※データ利用は ALAGIN会員 に限定しております。
※入手に関しても契約が必要です。

コーパス名 概要 データセット種類

JPO・NICT
英日対訳コーパス

英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです【詳細はこちら】 ・3.5億件(約76G)
・0.1億件(約1.3G)※
JPO・NICT
韓日対訳コーパス
韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです【詳細はこちら】 ・0.8億件(約19G)
・0.1億件(約1.6G)※
JPO
中日対訳コーパス
中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです【詳細はこちら】 ・1.3億件(約26G)
・0.1億件(約1.4G)※
JPO
中日辞書
中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです【詳細はこちら】 約220万語対
(約190M)
JPO・WAT 英日/韓日/中日 対訳コーパス 英語・韓国語・中国語のパテントファミリーを中心とする公開特許公報をもとに、日本国特許庁(JPO)が作成し、Workshop on Asian Translation(WAT)のPatent Taskで使用されたデータです。【詳細はこちら】 ・英日:約100万件(340MB)
・韓日:約100万件(406MB)
・中日:約100万件(375MB)
※0.1億件データはそれぞれのフルセットデータのサブセットとなります

 

ご利用に当たっての注意事項

本データのご利用に当たっては以下の点にご注意ください。

 

1. データ利用は研究目的に限定されており、商用利用は禁止されております。

2. データの全てを用いた研究成果の提出が必要です。

  また、ご提出いただく成果報告を公平に評価するために、データの全てをご利用いただくことが前提です。

  フルセットのデータ量が多すぎる場合はひとまず0.1億件データのご利用をお勧めします。

  ※JPO・WAT 英日/韓日/中日 対訳コーパスについては本項の対象外です。

 

データ提供方法

ALAGIN事務局より、データが格納されたHDDまたはメディアを貸し出しいたします。

 

問い合わせ窓口(ALAGIN事務局)


〒619-0289
  京都府相楽郡精華町光台3-5
  国立研究開発法人 情報通信研究機構 ALAGIN事務局
    電話: 0774-98-6302
    電子メール:info [at] alagin.jp


JPOコーパス概要

特許庁と高度言語情報融合フォーラム(ALAGIN)が協力して研究者に提供している各データセットの詳細です。

コーパスの利用方法や利用規約は、右下の「ALAGIN会員」よりログインいただくことで、右メニューより「申込方法・利用規約」がご覧になれます。

JPO・NICT英日対訳コーパス

「JPO・NICT英日対訳コーパス」は、英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです。JPO及びNICTは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。

●データ概要

  本データセットは、3.5億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。

(3.5億件データセット)

・英日対訳コーパスデータ合計約3億4795万文対
 (化学約1億2813万文対、電気約8647万文対、機械約 4532万文対、物理約8803万文対)

・英日機械翻訳品質評価用シート

(0.1億件データセット)

・英日対訳コーパスデータ合計1000万文対
 (化学250万文対、電気250万文対、機械250万文対、物理250万文対)

・英日機械翻訳品質評価用シート

英日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 英語
の情報を含みます。

スコア

値が大きいほど文と文の対応付け精度が高いことを意味する。
(参考文献)
Masao Utiyama and Hitoshi Isahara. (2007)
A Japanese-English Patent Parallel Corpus. MT summit XI.

M-N

文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは英語の文数。

文書ID

どの文献対のどの部分から作成したコーパスかを示す。
具体的には、
JPXXX…XXXA_US YYY…YYY A1_ ZZZ
の形式となっている。
ここで、JPXXX…XXXAは日本語の公報の番号、US YYY…YYY A1は英語の公報の番号、ZZZは公報のどの部分から作成した対訳コーパスであるか(tit:発明の名称、abs:要約、clm:請求項、des:明細書)を示す。

国際特許分類

日本語の公報に付与されている国際特許分類の先頭のもの。

分野

分野を表すコード。
C00:化学, E00:電気 ,M00:機械, P00:物理
コードはIPCに基づいて作成されている。

日本語

対応する文の日本語。

英語

対応する文の英語。

●データサイズ

    ・3.5億件データセット  約76GB

    ・0.1億件データセット  約1.3GB

JPO・NICT韓日対訳コーパス

「JPO・NICT韓日対訳コーパス」は、韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです。JPO及びNICTは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。

●データ概要

  本データセットは、0.8億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。

(0.8億件データセット)

・韓日対訳コーパスデータ合計約8346万文対
 (化学約3370万文対、電気約2347万文対、機械約823万文対、物理約1806万文対)

・韓日機械翻訳品質評価用シート

(0.1億件データセット)

・韓日対訳コーパスデータ合計1000万文対
 (化学250万文対、電気250万文対、機械250万文対、物理250万文対)

・韓日機械翻訳品質評価用シート

韓日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 韓国語
の情報を含みます。

スコア

値が大きいほど文と文の対応付け精度が高いことを意味する。
(参考文献)
Masao Utiyama and Hitoshi Isahara. (2007)
A Japanese-English Patent Parallel Corpus. MT summit XI.

M-N

文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは韓国語の文数。

文書ID

どの文献対のどの部分から作成したコーパスかを示す。
具体的には、
JPXXX…XXXA_KR YYY…YYY A1_ ZZZ
の形式となっている。
ここで、JPXXX…XXXAは日本語の公報の番号、KR YYY…YYY A1は韓国語の公報の番号、ZZZは公報のどの部分から作成した対訳コーパスであるか(tit:発明の名称、abs:要約、clm:請求項、des:明細書)を示す。

国際特許分類

韓国語の公報に付与されている国際特許分類の先頭のもの。

分野

分野を表すコード。
C00:化学, E00:電気 ,M00:機械, P00:物理
コードはIPCに基づいて作成されている。

日本語

対応する文の日本語。

韓国語

対応する文の韓国語。

●データサイズ

    ・0.8億件データセット  約19GB

    ・0.1億件データセット  約1.6GB

JPO中日対訳コーパス

「JPO中日対訳コーパス」は、中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。

●データ概要

  本データセットは、1.3億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。

(1.3億件データセット)

・中日対訳コーパスデータ合計約1億3285万文対
 (化学約5074文対、電気約3474万文対、機械約1632万文対、物理約3105万文対)

・中日機械翻訳品質評価用シート

(0.1億件データセット)

・中日対訳コーパスデータ合計1000万文対
 (化学250文対、電気250万文対、機械250万文対、物理250万文対)

・中日機械翻訳品質評価用シート

中日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 中国語
の情報を含みます。

スコア

値が大きいほど文と文の対応付け精度が高いことを意味する。
(参考文献)
Masao Utiyama and Hitoshi Isahara. (2007)
A Japanese-English Patent Parallel Corpus. MT summit XI.

M-N

文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは中国語の文数。

文書ID

どの文献対のどの部分から作成したコーパスかを示す。
項目は作成元のデータにより以下の2つ形式のいずれかとなっている。
【形式1】CNAXXX…XXX_JPAYYY…YYY_ZZZ
(パテントファミリーから作成した対訳コーパスである場合)
ここで、CNAXXX…XXXは中国語の公報の番号、JPAYYY…YYYは日本語の公報の番号、ZZZは公報のどの部分から作成した対訳コーパスであるか(tit:発明の名称、abs:要約、clm:請求項、des:明細書)を示す。
【形式2】CNAXXX…XXX_YYYY YYYY _ZZZ
(和文抄録データから作成した対訳コーパスである場合)
ここで、CNAXXX…XXXは中国語の公報の番号、YYY…YYYは”syouroku”固定、ZZZは公報のどの部分から作成した対訳コーパスであるか(tit:発明の名称、abs:要約)を示す。

国際特許分類

パテントファミリーから作成した対訳コーパスである場合は、日本語の公報に付与されている国際特許分類の先頭のもの。和文抄録データから作成した対訳コーパスである場合は、中国語の公報に付与されている国際特許分類の先頭のもの。

分野

分野を表すコード。
C00:化学, E00:電気 ,M00:機械, P00:物理
コードはIPCに基づいて作成されている。

日本語

対応する文の日本語。

中国語

対応する文の中国語。

●データサイズ

    ・1.3億件データセット  約26GB

    ・0.1億件データセット  約1.4GB

JPO中日対訳辞書

「JPO中日対訳辞書」は、中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。

●データ概要

  本データセットは、以下の構成を含みます。

(1.3億件データセット)

・中日対訳辞書データ約220万語対

・中日機械翻訳品質評価用シート

●データサイズ

    ・全データ  約190MB

中日対訳辞書データは、UTX1.11仕様に準拠しています。
本データの具体的な形式及びデータの作成方法については、以下の報告書をご参照ください。

 ・平成26年度 中国特許文献の機械翻訳のための辞書整備及び機械翻訳の品質評価に関する調査 報告書

JPO・WAT 英日/韓日/中日 対訳コーパス

JPO・WAT 英日/韓日/中日 対訳コーパス

「JPO・WAT 英日/韓日/中日 対訳コーパス」(JPO・WAT 対訳コーパス)は、英語・韓国語・中国語・日本語のパテントファミリーを中心とする公開特許公報をもとに、日本国特許庁(JPO)が作成したデータです。本データは、Workshop on Asian Translation(WAT)のPatent Task(https://lotus.kuee.kyoto-u.ac.jp/WAT/patent/)で使用されたデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。

●データ概要

  本データは、英日、韓日、中日それぞれ約100万文対の学習データと概ね10,000文以下のテストデータを含みます。本データでは、人手で翻訳された一部のテストデータを除き、自動で文の対応付けが行われています。テストデータには以下の5種類があります。 

・test-n1: 2011年から2013年の間に公開されたパテントファミリーの明細書部分を用いたデータ。

・test-n2: 2016年から2017年の間に公開されたパテントファミリーの明細書部分を用いたデータ(韓日についてはデータなし)。

・ test-n3: 2016年から2017年の間に公開された日本語、英語、中国語、韓国語の公開特許公報の明細書部分と、それらを特許庁が翻訳(日本語の原文は英語、他の言語の原文は日本語に翻訳)したデータの対。test-n3.{en,ja}データは、日英・英日データ両方(の日本語部分のみまたは英語部分のみ)を含む。

・test-n4: 2019年から2020年の間に公開されたパテントファミリーの明細書部分を用いたデータ。

・test-2022: 上記4データ(韓日については3データ)を合わせたデータ。

 なお、過去のWATにおいて、これらテストデータを用いて評価された機械翻訳システムのスコアはWAT評価サイト(https://lotus.kuee.kyoto-u.ac.jp/WAT/evaluation/index.html)で確認することができます。  

 言語対 ファイル名    文数 公開年  
 英日  train.{en,ja}  1,000,000   2011-2013
 英日  dev.{en,ja}  2,000   2011-2013
 英日  devtest.{en,ja}  2,000   2011-2013
 英日  test-n1.{en,ja}  2,000   2011-2013
 英日  test-n2.{en,ja}  3,000   2016-2017
 英日  test-n3.{en,ja}  668   2016-2017
 英日  test-n4.{en,ja}  5,000   2019-2020
 英日  test-2022.{en,ja}  10,668   2011-2020
 韓日  train.{ko,ja}  1,000,000   2011-2013
 韓日  dev.{ko,ja}  2,000   2011-2013
 韓日  devtest.{ko,ja}  2,000   2011-2013
 韓日  test-n1.{ko,ja}  2,000   2011-2013
 韓日  test-n3.{ko,ja}  230   2016-2017
 韓日  test-n4.{ko,ja}  5,000   2019-2020
 韓日  test-2022.{ko,ja}  7,230   2011-2020
 中日  train.{zh,ja}  1,000,000   2011-2013
 中日  dev.{zh,ja}  2,000   2011-2013
 中日  devtest.{zh,ja}  2,000   2011-2013
 中日  test-n1.{zh,ja}  2,000   2011-2013
 中日  test-n2.{zh,ja} 3,000   2016-2017
 中日  test-n3.{zh,ja}  204   2016-2017
 中日  test-n4.{zh,ja}  5,000   2019-2020
 中日  test-2022.{zh,ja}  10,204   2011-2020

●データサイズ

・英日データ 340MB
・韓日データ 406MB
・中日データ 375MB
・全体(圧縮後) 223MB