Wikipedia日英京都関連文書対訳コーパス
English Page
本コーパスについて
『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。
特徴
- 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。
- 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。
- 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。
- 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。
- 京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。
- 各種観光情報の英訳や通訳ガイドのための用語集作成、英語学習などにもご活用いただけます。
- 本コーパスに含まれる日英対訳用語約5万語対を収録した『日英京都関連対訳用語集』が付属しています(Version 2.0以降)。
目次
- 2010-10-27 Wikipedia日英京都関連文書対訳コーパス Version 1.0 リリース
- 2010-12-20 Wikipedia日英京都関連文書対訳コーパス Version 2.0 リリース
- 2010-12-23 Wikipedia日英京都関連文書対訳コーパス Version 2.0 バグ修正
- Version 2.0にて新たに加えられたファイル内の <e type="check2" ver="1">タグを <e type="check" ver="1">に修正しました。
- ファイルリストの"Number of sentences"を一部修正しました。
- ROD00041.xmlにおける著作権表示の抜けを補いました。
- 2011-01-13 Wikipedia日英京都関連文書対訳コーパス Version 2.01 リリース
- 著作権者表示内のアンパサンド記号(&)、アポストロフィ記号(')、二重引用符(")を、それぞれ"&"、"'"、"""に修正しました。
- 以下のファイルにおける英訳の抜けを補完しました。
BLD00220.xml <sen id="6">, BLD00667.xml <sen id="8">, CLT00963.xml <sen id="10">, CLT01519.xml <sen id="19">,
CLT01601.xml <tit>, FML00035.xml <sen id="1">, HST00999.xml <sen id="1">, LTT00001.xml <sen id="293">,
PNM00042.xml <sen id="54">, PNM00069.xml <sen id="194">, PNM00085.xml <sen id="56">, PNM00138.xml <sen id="76">,
PNM00139.xml <sen id="1">, PNM03585.xml <sen id="44">, PNM03767.xml <sen id="7">, RLW00015.xml <sen id="24">,
SCL00023.xml <sen id="215">, TTL00025.xml <sen id="8">
- SAT00007.xmlの<sen id="37">におけるタグ誤りを修正しました("<cmt>修正なし/cmt>"を"<cmt>修正なし</cmt>"に修正。)
- 本コーパスは、Wikipediaの日本語記事を英訳することにより作成され、Creative Commons Attribution-Share-Alike License 3.0 の条件の下、一般公開されています。本コーパスのご利用に際しては、Wikipediaの著作権(英語)を熟読の上、著作権法を考慮の上、十分に注意をしてください。
- 本コーパスでは、Wikipedia記事に記載されたあらゆる情報をそのまま翻訳しています。本コーパスをご利用の際は第三者への誹謗中傷、差別用語、個人情報などに十分な注意をお願いいたします。
- 国立研究開発法人情報通信研究機構では、本コーパスおよび用語集により獲得される情報の信頼性について責任を持ちません。また、本コーパスおよび用語集の使用に関連して生ずる損失、損害等について、いかなる場合においても一切責任を負いません。
- 本コーパスおよび用語集の内容における著作権侵害やその他問題を発見された場合は、お手数ですが、E-mailにて、kyoto-corpus[あっとまーく]khn[どっと]nict[どっと]go[どっと]jp([あっとまーく]を@に、[どっと]を.にそれぞれ変換してください)までご連絡ください。ご指摘内容を検討の後、必要な場合は修正を施します。
コーパスに収録されている日英対訳データは、一記事ごとにファイル化されています(xml形式。計14,111ファイル)。
以下の点線枠内はファイルのサンプルです(Wikipedia記事名「龍安寺」)。
主なタグの意味は、次の通りです。
- <j>日本語原文</j>
- <e type="trans" ver="1">一次翻訳文</e>
- <e type="trans" ver="2">二次翻訳文</e>
- <e type="check" ver="1">最終翻訳文</e>
- <cmt>翻訳作業者による自由記述コメント</cmt>
その他のタグについては、readme.pdfをご参照ください。
また、セクション区切り(<sec>)およびパラグラフ区切り(<par>)の両タグについては、HTMLタグなしのWikipediaの元ページデータに自動付与されたものであるため、その精度に制約があることを予めご了承ください。
<?xml version="1.0" encoding="UTF-8"?>
<art orl="ja" trl="en">
<inf>jawiki-20080607-pages-articles.xml</inf>
<tit>
<j>龍安寺</j>
<e type="trans" ver="1">Ryoan-ji Temple</e>
<cmt></cmt>
<e type="trans" ver="2">Ryoan-ji Temple</e>
<cmt>修正なし</cmt>
<e type="check" ver="1">Ryoan-ji Temple</e>
<cmt>修正なし</cmt>
</tit>
<par id="1">
<sen id="1">
<j>龍安寺(りょうあんじ)は、京都府京都市右京区にある臨済宗妙心寺派の寺院。</j>
<e type="trans" ver="1">Ryoan-ji is a temple in the Myoshinji branch of the
Rinzai sect, and is located in Ukyo-ku, Kyoto.</e>
<cmt></cmt>
<e type="trans" ver="2">Ryoan-ji is a temple that belongs to the Myoshinji
school of the Rinzai sect, and is located in Ukyo-ku, Kyoto city.</e>
<cmt>妙心寺派の「派」はschoolの方がよく用いられている。「妙心寺派の」という表現は「妙心寺
派に属する」という意味である。「京都市」だけを訳出してあるので、cityを添えた。</cmt>
<e type="check" ver="1">A temple belonging to the Myoshinji school of the
Rinzai sect, Ryoan-ji Temple is located in Ukyo-ku, Kyoto city.</e>
<cmt>フィードバックに基づき翻訳を修正しました。</cmt>
</sen>
<sen id="2">
中略
</par>
</art>
各ファイルはその内容によって15のカテゴリに分けられ、ディレクトリに分割して格納されています。
カテゴリは、学校、鉄道(交通関連)、旧家、建造物、神道、人名、地名、伝統文化(一部現代文化も含む)、道路、仏教、文学、役職・称号、歴史、神社仏閣、天皇です(カテゴリ名をクリックすると、それぞれのファイルサンプルを参照できます)。
『Wikipedia日英京都関連文書対訳コーパス』および『日英京都関連対訳用語集』の利用、再配布は、Creative Commons Attribution-Share-Alike License 3.0 の条件の下に、許諾されます。詳細はhttp://creativecommons.org/licenses/by-sa/3.0/をご参照ください。
(※)なお、クレジットの表示は次のようにお願いいたします。
「本サービスで使用している[データ]はWikipediaの日本語文を国立研究開発法人情報通信研究機構が英訳したものを、Creative Comons Attribution-Share-Alike License 3.0による利用許諾のもと使用しております。詳細はhttp://creativecommons.org/licenses/by-sa/3.0/およびhttp://alaginrc.nict.go.jp/WikiCorpus/をご覧下さい。」
【注意】上記の[データ]という部分は必要に応じて「語釈文」「定義」などに利用者側でご変更ください。
(※)の条件は2011年10月4日に追加されました。同日以降にダウンロードしたデータについては、この条件を遵守していただく必要があります。
MASTARプロジェクト
NICT 情報分析研究室(2011年度より言語基盤グループから改称)& 多言語翻訳研究室
(2011年度より言語翻訳グループ から改称)
国立研究開発法人情報通信研究機構