JPOコーパス一覧

特許庁と高度言語情報融合フォーラム(ALAGIN)が協力して研究者に提供しているデータセットです。

コーパス名 概要 データセット種類

JPO・NICT
英日対訳コーパス

英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです【詳細はこちら】 ・3.5億件(約76G)
・0.1億件(約1.3G)※
JPO・NICT
韓日対訳コーパス
韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及び国立研究開発法人情報通信研究機構(NICT)が共同で作成したデータです【詳細はこちら】 ・0.8億件(約19G)
・0.1億件(約1.6G)※
JPO
中日対訳コーパス
中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです【詳細はこちら】 ・1.3億件(約26G)
・0.1億件(約1.4G)※
JPO
中日辞書
中国語と日本語の対応する公開特許公報の対(パテントファミリー)若しくは中国語の公開特許公報の要約部分とそれを特許庁が日本語に翻訳した和文抄録データの対をもとに、日本国特許庁(JPO)が作成したデータです【詳細はこちら】 約220万語対
(約190M)
※0.1億件データはそれぞれのフルセットデータのサブセットとなります

 

ご利用に当たっての注意事項

本データのご利用に当たっては以下の点にご注意ください。

 

1. データ利用は研究目的に限定されており、データの全てを用いた研究成果の提出が必要です。
  

2. ご提出いただく成果報告を公平に評価するために、データの全てをご利用いただくことが前提です。

  フルセットのデータ量が多すぎる場合はひとまず0.1億件データのご利用をお勧めします。

 

3. データの商用利用は禁止されております。

 

データ提供方法

ALAGIN事務局より、データが格納されたHDDまたはメディアを貸し出しいたします。

 

問い合わせ窓口(ALAGIN事務局)


〒619-0289
  京都府相楽郡精華町光台3-5
  国立研究開発法人 情報通信研究機構 ALAGIN事務局
    電話: 0774-98-6302
    電子メール:info [at] alagin.jp