JPOコーパス一覧
特許庁と高度言語情報融合フォーラム(ALAGIN)が協力して研究者に提供しているデータセットです。
※データ利用は
ALAGIN会員
に限定しております。
※入手に関しても契約が必要です。
コーパス名 | 概要 | データセット種類 |
JPO・NICT |
英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです【詳細はこちら】 | ・3.5億件(約76G) ・0.1億件(約1.3G)※ |
JPO・NICT 韓日対訳コーパス |
韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです【詳細はこちら】 | ・0.8億件(約19G) ・0.1億件(約1.6G)※ |
JPO 中日対訳コーパス |
中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです【詳細はこちら】 | ・1.3億件(約26G) ・0.1億件(約1.4G)※ |
JPO 中日辞書 |
中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです【詳細はこちら】 | 約220万語対 (約190M) |
JPO・WAT 英日/韓日/中日 対訳コーパス | 英語・韓国語・中国語のパテントファミリーを中心とする公開特許公報をもとに、日本国特許庁(JPO)が作成し、Workshop on Asian Translation(WAT)のPatent Taskで使用されたデータです。【詳細はこちら】 | ・英日:約100万件(340MB) ・韓日:約100万件(406MB) ・中日:約100万件(375MB) |
※0.1億件データはそれぞれのフルセットデータのサブセットとなります |
ご利用に当たっての注意事項
本データのご利用に当たっては以下の点にご注意ください。
1. データ利用は研究目的に限定されており、商用利用は禁止されております。
2. データの全てを用いた研究成果の提出が必要です。
また、ご提出いただく成果報告を公平に評価するために、データの全てをご利用いただくことが前提です。
フルセットのデータ量が多すぎる場合はひとまず0.1億件データのご利用をお勧めします。
※JPO・WAT 英日/韓日/中日 対訳コーパスについては本項の対象外です。
データ提供方法
ALAGIN事務局より、データが格納されたHDDまたはメディアを貸し出しいたします。
問い合わせ窓口(ALAGIN事務局)
〒619-0289
京都府相楽郡精華町光台3-5
国立研究開発法人 情報通信研究機構 ALAGIN事務局
電話: 0774-98-6302
電子メール:info [at] alagin.jp
JPOコーパス概要
特許庁と高度言語情報融合フォーラム(ALAGIN)が協力して研究者に提供している各データセットの詳細です。
コーパスの利用方法や利用規約は、右下の「ALAGIN会員」よりログインいただくことで、右メニューより「申込方法・利用規約」がご覧になれます。
JPO・NICT英日対訳コーパス
「JPO・NICT英日対訳コーパス」は、英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです。JPO及びNICTは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。
●データ概要本データセットは、3.5億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。
(3.5億件データセット)
・英日対訳コーパスデータ合計約3億4795万文対 |
・英日機械翻訳品質評価用シート |
(0.1億件データセット)
・英日対訳コーパスデータ合計1000万文対 |
・英日機械翻訳品質評価用シート |
英日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 英語
の情報を含みます。
スコア |
値が大きいほど文と文の対応付け精度が高いことを意味する。 |
M-N |
文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは英語の文数。 |
文書ID |
どの文献対のどの部分から作成したコーパスかを示す。 |
国際特許分類 |
日本語の公報に付与されている国際特許分類の先頭のもの。 |
分野 |
分野を表すコード。 |
日本語 |
対応する文の日本語。 |
英語 |
対応する文の英語。 |
●データサイズ
・3.5億件データセット 約76GB
・0.1億件データセット 約1.3GB
JPO・NICT韓日対訳コーパス
「JPO・NICT韓日対訳コーパス」は、韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです。JPO及びNICTは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。
●データ概要本データセットは、0.8億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。
(0.8億件データセット)
・韓日対訳コーパスデータ合計約8346万文対 |
・韓日機械翻訳品質評価用シート |
(0.1億件データセット)
・韓日対訳コーパスデータ合計1000万文対 |
・韓日機械翻訳品質評価用シート |
韓日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 韓国語
の情報を含みます。
スコア |
値が大きいほど文と文の対応付け精度が高いことを意味する。 |
M-N |
文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは韓国語の文数。 |
文書ID |
どの文献対のどの部分から作成したコーパスかを示す。 |
国際特許分類 |
韓国語の公報に付与されている国際特許分類の先頭のもの。 |
分野 |
分野を表すコード。 |
日本語 |
対応する文の日本語。 |
韓国語 |
対応する文の韓国語。 |
●データサイズ
・0.8億件データセット 約19GB
・0.1億件データセット 約1.6GB
JPO中日対訳コーパス
「JPO中日対訳コーパス」は、中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。
●データ概要本データセットは、1.3億件と0.1億件の2種類となっており、それぞれ以下の構成を含みます。
(1.3億件データセット)
・中日対訳コーパスデータ合計約1億3285万文対 |
・中日機械翻訳品質評価用シート |
(0.1億件データセット)
・中日対訳コーパスデータ合計1000万文対 |
・中日機械翻訳品質評価用シート |
中日対訳コーパスデータは、区切り文字(|||)で区切られた
スコア ||| M-N ||| 文書ID ||| 国際特許分類 ||| 分野 ||| 日本語 ||| 中国語
の情報を含みます。
スコア |
値が大きいほど文と文の対応付け精度が高いことを意味する。 |
M-N |
文対応に含まれる文の数。M-Nの形式となっており、Mは日本語の文数、Nは中国語の文数。 |
文書ID |
どの文献対のどの部分から作成したコーパスかを示す。 |
国際特許分類 |
パテントファミリーから作成した対訳コーパスである場合は、日本語の公報に付与されている国際特許分類の先頭のもの。和文抄録データから作成した対訳コーパスである場合は、中国語の公報に付与されている国際特許分類の先頭のもの。 |
分野 |
分野を表すコード。 |
日本語 |
対応する文の日本語。 |
中国語 |
対応する文の中国語。 |
●データサイズ
・1.3億件データセット 約26GB
・0.1億件データセット 約1.4GB
JPO中日対訳辞書
「JPO中日対訳辞書」は、中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。
●データ概要本データセットは、以下の構成を含みます。
(1.3億件データセット)
・中日対訳辞書データ約220万語対 |
・中日機械翻訳品質評価用シート |
●データサイズ
・全データ 約190MB
中日対訳辞書データは、UTX1.11仕様に準拠しています。
本データの具体的な形式及びデータの作成方法については、以下の報告書をご参照ください。
・平成26年度 中国特許文献の機械翻訳のための辞書整備及び機械翻訳の品質評価に関する調査 報告書
JPO・WAT 英日/韓日/中日 対訳コーパス
JPO・WAT 英日/韓日/中日 対訳コーパス「JPO・WAT 英日/韓日/中日 対訳コーパス」(JPO・WAT 対訳コーパス)は、英語・韓国語・中国語・日本語のパテントファミリーを中心とする公開特許公報をもとに、日本国特許庁(JPO)が作成したデータです。本データは、Workshop on Asian Translation(WAT)のPatent Task(https://lotus.kuee.kyoto-u.ac.jp/WAT/patent/)で使用されたデータです。JPOは、別に定める利用規約を遵守することを条件に、本データの研究目的での利用(無料)を許諾します。
●データ概要本データは、英日、韓日、中日それぞれ約100万文対の学習データと概ね10,000文以下のテストデータを含みます。本データでは、人手で翻訳された一部のテストデータを除き、自動で文の対応付けが行われています。テストデータには以下の5種類があります。
・test-n1: 2011年から2013年の間に公開されたパテントファミリーの明細書部分を用いたデータ。 |
・test-n2: 2016年から2017年の間に公開されたパテントファミリーの明細書部分を用いたデータ(韓日についてはデータなし)。 |
・ test-n3: 2016年から2017年の間に公開された日本語、英語、中国語、韓国語の公開特許公報の明細書部分と、それらを特許庁が翻訳(日本語の原文は英語、他の言語の原文は日本語に翻訳)したデータの対。test-n3.{en,ja}データは、日英・英日データ両方(の日本語部分のみまたは英語部分のみ)を含む。 |
・test-n4: 2019年から2020年の間に公開されたパテントファミリーの明細書部分を用いたデータ。 |
・test-2022: 上記4データ(韓日については3データ)を合わせたデータ。 |
なお、過去のWATにおいて、これらテストデータを用いて評価された機械翻訳システムのスコアはWAT評価サイト(https://lotus.kuee.kyoto-u.ac.jp/WAT/evaluation/index.html)で確認することができます。
言語対 | ファイル名 | 文数 | 公開年 |
英日 | train.{en,ja} | 1,000,000 | 2011-2013 |
英日 | dev.{en,ja} | 2,000 | 2011-2013 |
英日 | devtest.{en,ja} | 2,000 | 2011-2013 |
英日 | test-n1.{en,ja} | 2,000 | 2011-2013 |
英日 | test-n2.{en,ja} | 3,000 | 2016-2017 |
英日 | test-n3.{en,ja} | 668 | 2016-2017 |
英日 | test-n4.{en,ja} | 5,000 | 2019-2020 |
英日 | test-2022.{en,ja} | 10,668 | 2011-2020 |
韓日 | train.{ko,ja} | 1,000,000 | 2011-2013 |
韓日 | dev.{ko,ja} | 2,000 | 2011-2013 |
韓日 | devtest.{ko,ja} | 2,000 | 2011-2013 |
韓日 | test-n1.{ko,ja} | 2,000 | 2011-2013 |
韓日 | test-n3.{ko,ja} | 230 | 2016-2017 |
韓日 | test-n4.{ko,ja} | 5,000 | 2019-2020 |
韓日 | test-2022.{ko,ja} | 7,230 | 2011-2020 |
中日 | train.{zh,ja} | 1,000,000 | 2011-2013 |
中日 | dev.{zh,ja} | 2,000 | 2011-2013 |
中日 | devtest.{zh,ja} | 2,000 | 2011-2013 |
中日 | test-n1.{zh,ja} | 2,000 | 2011-2013 |
中日 | test-n2.{zh,ja} | 3,000 | 2016-2017 |
中日 | test-n3.{zh,ja} | 204 | 2016-2017 |
中日 | test-n4.{zh,ja} | 5,000 | 2019-2020 |
中日 | test-2022.{zh,ja} | 10,204 | 2011-2020 |
●データサイズ
・英日データ 340MB
・韓日データ 406MB
・中日データ 375MB
・全体(圧縮後) 223MB