Wikipedia日英京都関連文書対訳コーパス


English Page

本コーパスについて


『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。

特徴

  1. 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。

  2. 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。

  3. 京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。

  4. 本コーパスに含まれる日英対訳用語約5万語対を収録した『日英京都関連対訳用語集』が付属しています(Version 2.0以降)。

目次


新着情報


注意事項


ファイルサンプル


コーパスに収録されている日英対訳データは、一記事ごとにファイル化されています(xml形式。計14,111ファイル)。
以下の点線枠内はファイルのサンプルです(Wikipedia記事名「龍安寺」)。
主なタグの意味は、次の通りです。 その他のタグについては、readme.pdfをご参照ください。
また、セクション区切り(<sec>)およびパラグラフ区切り(<par>)の両タグについては、HTMLタグなしのWikipediaの元ページデータに自動付与されたものであるため、その精度に制約があることを予めご了承ください。

<?xml version="1.0" encoding="UTF-8"?>
<art orl="ja" trl="en">
<inf>jawiki-20080607-pages-articles.xml</inf>
<tit>
<j>龍安寺</j>
 <e type="trans" ver="1">Ryoan-ji Temple</e>
 <cmt></cmt>
 <e type="trans" ver="2">Ryoan-ji Temple</e>
 <cmt>修正なし</cmt>
 <e type="check" ver="1">Ryoan-ji Temple</e>
 <cmt>修正なし</cmt>
</tit>
<par id="1">
 <sen id="1">
  <j>龍安寺(りょうあんじ)は、京都府京都市右京区にある臨済宗妙心寺派の寺院。</j>
   <e type="trans" ver="1">Ryoan-ji is a temple in the Myoshinji branch of the
   Rinzai sect, and is located in Ukyo-ku, Kyoto.</e>
   <cmt></cmt>
   <e type="trans" ver="2">Ryoan-ji is a temple that belongs to the Myoshinji
   school of the Rinzai sect, and is located in Ukyo-ku, Kyoto city.</e>
   <cmt>妙心寺派の「派」はschoolの方がよく用いられている。「妙心寺派の」という表現は「妙心寺
   派に属する」という意味である。「京都市」だけを訳出してあるので、cityを添えた。</cmt>
   <e type="check" ver="1">A temple belonging to the Myoshinji school of the
   Rinzai sect, Ryoan-ji Temple is located in Ukyo-ku, Kyoto city.</e>
   <cmt>フィードバックに基づき翻訳を修正しました。</cmt>
 </sen>
 <sen id="2">

中略

</par>
</art>

ファイルのカテゴリ


各ファイルはその内容によって15のカテゴリに分けられ、ディレクトリに分割して格納されています。

カテゴリは、学校鉄道(交通関連)旧家建造物神道人名地名伝統文化(一部現代文化も含む)道路仏教文学役職・称号歴史神社仏閣天皇です(カテゴリ名をクリックすると、それぞれのファイルサンプルを参照できます)。

ダウンロード


License


クリエイティブ・コモンズ・ライセンス
『Wikipedia日英京都関連文書対訳コーパス』および『日英京都関連対訳用語集』の利用、再配布は、Creative Commons Attribution-Share-Alike License 3.0 の条件の下に、許諾されます。詳細はhttp://creativecommons.org/licenses/by-sa/3.0/をご参照ください。
(※)なお、クレジットの表示は次のようにお願いいたします。
 「本サービスで使用している[データ]はWikipediaの日本語文を国立研究開発法人情報通信研究機構が英訳したものを、Creative Comons Attribution-Share-Alike License 3.0による利用許諾のもと使用しております。詳細はhttp://creativecommons.org/licenses/by-sa/3.0/およびhttp://alaginrc.nict.go.jp/WikiCorpus/をご覧下さい。」
 【注意】上記の[データ]という部分は必要に応じて「語釈文」「定義」などに利用者側でご変更ください。
(※)の条件は2011年10月4日に追加されました。同日以降にダウンロードしたデータについては、この条件を遵守していただく必要があります。


MASTARプロジェクト
NICT 情報分析研究室(2011年度より言語基盤グループから改称)& 多言語翻訳研究室 (2011年度より言語翻訳グループ から改称)
国立研究開発法人情報通信研究機構