各言語資源の概要

契約書の入手及び作成方法等につきましては、右下の「ALAGIN会員」よりログイン頂く事で、右メニューより「資源の入手・契約方法」「言語資源申請書・契約書」がご覧になれます。



(A-1)文脈類似語データベース

100万語の名詞に対して、約1億ページのWeb文書上での文脈が類似している名詞を類似度とともに順に最大500個列挙したものです。(今年度中にさらに大規模な約6億ページのWebデータをもとに構築し直し、語彙数も200万まで増強する予定です)


例(数字は類似度)
「ルパン三世」の文脈類似語(アニメタイトルが上位に集まっている) ルパン3世 (-0.229) 名探偵コナン (-0.259) 宇宙戦艦ヤマト (-0.265) ケロロ軍曹 (-0.28) 鉄腕アトム(-0.282) ガッチャマン (-0.287) デビルマン (-0.289) サイボーグ009 (-0.294) 新世紀エヴァンゲリオン (-0.295) ヤッターマン (-0.305) 聖闘士星矢 (-0.308) セーラームーン (-0.308) ...
「チャイコフスキー」の文脈類似語(有名作曲家が上位に集まっている) ブラームス (-0.152) シューマン (-0.163) メンデルスゾーン (-0.166) ショスタコーヴィチ(-0.178) シベリウス (-0.18) ハイドン (-0.181) ヘンデル (-0.181) ラヴェル (-0.182) シューベルト (-0.187) ベートーヴェン (-0.19) ドヴォルザーク (-0.192) ラフマニノフ (-0.193) バルトーク (-0.198) ....
「カラヤン」の文脈類似語(有名指揮者が上位に集まっている) クレンペラー (-0.21) バーンスタイン (-0.215) トスカニーニ (-0.227) フルトヴェングラー (-0.227) ベーム (-0.23) チェリビダッケ (-0.232) アバド (-0.239) ムラヴィンスキー (-0.242) クーベリック (-0.245) ヴァント (-0.254) リヒテル (-0.256) メンゲルベルク (-0.256) ハイティンク (-0.265) アーノンクール (-0.276) ....
「ストーンズ」の文脈類似語(懐かしのバンドなどが上位に集まっている) YMO (-0.215) メタリカ (-0.223) ビートルズ (-0.236) ローリング・ストーンズ (-0.245)
エアロスミス (-0.268) ツェッペリン (-0.277) Beatles (-0.284) ローリングストーンズ
(-0.287) QUEEN (-0.292) ベンチャーズ (-0.294) ビ ーチ・ボーイズ (-0.295) ピンク・フロイド (-0.297) レッド・ツェッペリン (-0.301) ラモーンズ (-0.301) ディープ・パープル (-0.301) ニール・ヤング (-0.305) ザ・フー (-0.306) ....
バージョン情報:

 

(Version 1)

本資源の説明書 (契約後は、「文脈類似語データベース(Version 1)説明書 SW_ALAGIN_V1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約12.1GB、展開時約48.3GB。


(Version 1.1)

本バージョンでは、前バージョンの元データの処理にバグがあることが判明しため、データを作り直しました。そのため、含まれている語の集合にわず かな差がありますのでご注意下さい。文脈類似語の質も全体的な傾向としては向上しております。

本資源の説明書(契約後は、 「文脈類似語データベース(Version 1.1)説明書 SW_ALAGIN_V1.1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約5.4GB、展開時約22GB。

(Version 1.1.1)

本バージョンでは、新手法により生成した文脈類似度データベース、単語クラスタリングのモデルパラメータファイル、語への隠れクラス付与ファイルなどの新たなデータを追加しました。

本資源の説明書(契約後は、 「文脈類似語データベース(Version 1.1.1)説明書 SW_ALAGIN_V1.1.1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約7.5GB、展開時約27.5GB。


(Version 1.1.2)

これまで配布してきた文脈類似語データベースは、自動解析された結果から単語を抽出しているため、実際には意味をなさない文字列(非単語)が単語として認識されていることがありました。そこで、約 100 万の単語候補から人手で確認した約 33,000 の非単語を削除したデータを作成し、本バージョンで配布いたします。

本資源の説明書(契約後は、 「文脈類似語データベース(Version 1.1.2)説明書 SW_ALAGIN_V1.1.2_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約9.9GB、展開時約40.4GB。




(A-2)動詞含意関係データベース

含意関係が成立している動詞のペア(正例52,689ペア、負例68,819ペア)を列挙したものです。負例は、正例とセットで、機械学習への入力として利用できます。つまり、ある動詞ペアの間に含意関係が成立するかどうかを識別するモデルを学習する際の学習データとして使用することができます。

正例の例(左の動詞が右の動詞を含意する)
チンする 加熱する
デトックスする 解毒する
銀ブラする うろつく
アポトーシスする 死ぬ
壊れる イカれる
驚く ビックリする
まどろむ ウトウトする
先発復帰する スタメン出場する
あざ笑う 笑う
酔っぱらう 飲む
借りる 貸す
 

負例の例(左の動詞が右の動詞を含意しない)
叫ぶ 驚く
擦る 拭く
病む 治す
旅する 移住する
準優勝する 優勝する
閉める 開ける
深煎りする 挽く
 

バージョン情報:

(Version 1.1)

前バージョンであるVersion1.0からの主な変更点は、正例ペアを約7,000から約24,000に増強した点です。

(Version1.1.1)

前バージョンであるVersion1.1からの主な変更点は、負例ペアを約12,000から約38,000に増強した点です。

(Version1.2.0)

前バージョンであるVersion1.1.1からの主な変更点は、正例ペアを約24,000から約30,000に増強した点です。

(Version1.3.0)

前バージョンであるVersion1.2.0からの主な変更点は、正例、負例 それぞれに4つの下位分類を設け、それに伴い、正例を 29,458ペアから50,079ペアに、負例を38,610ペアから38,787ペアに 増強した点です。

本資源の説明書(契約後は、「動詞含意関係データベース(Version 1.3.0)ENT_ALAGIN_V1.3.0_README.euc」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量:圧縮時約1.0MB。展開時約4.3MB。

(Version1.3.1)

前バージョンであるVersion1.3.0からの主な変更点は、正例を50,079ペアから52,689ペアに、負例を38,787ペアから68,819ペアに増強した点です。

本資源の説明書(契約後は、「動詞含意関係データベース(Version 1.3.1)ENT_ALAGIN_V1.3.1_README.euc」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量:圧縮時約1.3MB。展開時約5.4MB。




(A-3)負担・トラブル表現リスト

災害や病、障壁や規制など、人間の活動に負荷を与えたり、マイナス効果をもたらしたりする事物に関する表現(約2万)を集めたものです。例えば、「<トピック>の<負担・トラブル表現 >」という文字列でネット検索をすることにより、トピックに関するトラブルをマイニングすることが可能です。


負担・トラブル表現 分類
風邪 病
カリニ肺炎 病
入園制限 規制・制限
ハム音 異音・雑音・騒音
カルテ改ざん 不正行為・違反
ガルバニック腐食 腐食
ハモグリバエ 有害生物-虫
PCB漏洩事故 事故


本資源の説明書(契約後は、「負担・ トラブル表現リスト(Version 1.0)説明書 trouble_README.euc」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 約148KB。



(A-4)上位語階層データ

すでに公開中のWikipediaからの上位下位関係抽出ツール(http://alaginrc.nict.go.jp/hyponymy/index.html)を日本語Wikipedia (2007-03-28版)に適用し、得られた上位下位関係に現れた上位語、約69,000名詞句を階層化して、階層を構成する名詞句のすべてに、その指示対象が十分に特定されるかどうかのタグ付けをおこなったものです。例えば、「成分」という語はそれだけでは指示対象が特定されず、「食品の成分」などというように表現を補わないと適切な上位語とは呼べません。本データによって、Wikipediaから抽出された上位下位関係から不適切な上位語を取り除くと同時に、上位語の階層化によって、より柔軟な活用が可能となります。

<type=G>トンネル</>, <type=G>道路トンネル</>, <type=G>水底道路トンネル</>
<type=D>台</>, <type=G>天文台</>, <type=G>公開天文台</>
<type=D>ボール</>, <type=G>バレーボール</>, <type=G>イタリアのバレーボール</>
<type=D>手</>, <type=L>選手</>, <type=L>北九州の選手</>,<type=G>ニューウェーブ北九州の選手</>
<type=D>品</>, <type=L>作品</>, <type=G>トランプに関わる作品</>
<type=L>成分</>, <type=G>薬の成分</>, <type=G>頭痛薬の成分</>, <type=G>市販頭痛薬の成分</>
<type=L>疾患</>,<type=G>消化器疾患</>
<type=G>橋</>,<type=G>鉄橋</>,<type=G>正門鉄橋</>
<type=L>セミナー</>,<type=L>啓発セミナー</>,<type=G>自己啓発セミナー</>

一行はコンマで区切られた要素の列で、左端が最上位の上位語、右端が最下位の上位語となるような階層を表わしています。
type=G,L,Dなどのタグが上位語の適切さを表しています。

これらの階層を利用することで、上位下位関係抽出ツールが大量に出力する固有名の上位語を精度よく扱うことが可能に
なります。

本資源の説明書(契約後は、「上位語階層データ(Version 1)ALAGIN_typed-hierarchies-v1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約2.0MB、展開時約14MB。



(A-5)単語共起頻度データベース

本データベースは、約1億のウェブページを用いて、様々な条件で、2つの単語が共起する回数を計算して、各単語について3種類の共起 スコア(共起頻度,Dice係数,ディスカウンティング相互情報量)の高い順に、最大100単語を列挙したものです。

以下の条件の共起に基づくデータベースが含まれます。

・約100万語の全組み合わせについての文書内の共起
・約50万語の全組み合わせについての近接4文内の共起
・約50万語の全組み合わせについての1文内の共起

また、上記の元となる全データ、つまり、スコアの上位100語に限定しない全ての語の組み合わせに対する共起スコアを含むデータもHDDで配布いたします。詳細は、データの説明書をご参照ください。

意味的関連の強い単語は、互いに共起しやすいため、一種の関連語データベースとしてお使いいただけます。

例として、約100万語の全組み合わせについての文書内の共起に基づく「海外旅行」と「クリスマス」のDice係数の上位5語を挙げます。

他にも近接4文や文内の共起など共起の条件や、共起頻度、相互情報量など共起スコアを変えることで、異なる傾向のデータが得られますので、タグクラウド、recommendation、情報検索研究などにどうぞご活用ください。

例:「海外旅行」のDice係数の上位5語
国内旅行:0.370944
格安航空券:0.164571
ツアー:0.156045
航空券:0.150201
旅行:0.145224

例:「クリスマス」のDice係数の上位5語
お正月:0.172339
誕生日:0.119606
サンタ:0.113987
冬:0.112612
年末:0.110775

なお、単語の対だけではなく、各単語の出現頻度、DF等のデータも含まれておりますので、ご活用ください。さらに、上記データを効率よく検索するスクリプトも同時に公開されております(http:alaginrc.nict.go.jp/SortedFileSearch/)

バージョン情報:

(Version 1)

本資源の説明書(契約後は、「単語共起頻度データベース(Version 1)TC_ALAGIN_V1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約1.2TB、展開時約4TB。(全てを入手するためにはHDD配布を選択する必要があります)

(Version 1.1)

これまで配布してきた単語共起頻度データベースは、自動解析された結果から単語を抽出しているため、実際には意味をなさない文字列(非単語)が単語として認識されていることがありました。そこで、約 100 万の単語候補から人手で確認した約 33,000 の非単語を削除したデータを作成し、本バージョンで配布いたします。

本資源の説明書(契約後は、「単語共起頻度データベース(Version 1.1)TC_ALAGIN_V1.1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約1.1TB、展開時約3.5TB。(全てを入手するためにはHDD配布を選択する必要があります)



(A-6)日本語パターン言い換えデータベース

本データベースは、係り受け解析の結果を利用して、「AがBの原因となる」というような、文内で任意の名詞AとBを結ぶ表現パターンの言い換えデータベース(各々のパターンに対して類似したパターンをその類似度とともに列挙したもの)です。このデータベースは、AとBという変数に相当する名詞の共起統計に基づいて、現在5000万ウェブ文書から自動獲得したパターン約170万個の言い換えを含みます。パターンデータとともに、検索・類似度計算スクリプトも提供致します(http://alaginrc.nict.go.jp/patternDB_tools/)。

本資源の説明書(契約後は、「日本語パターン言い換えデータベース(Version1)pattern_ALAGIN_v1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約22GB、展開時約157GB。



(A-7)日本語異表記対データベース

本データは日本語の語句のレベルでの編集距離の近い異表記対(別名「表記揺れの対」)の正例と負例を集めたデータです。 本データで収集の対象にしているのは編集距離が1の異表記対のみです。編集距離は簡単に言うと文字列 として比較して異なっている文字数のことです。編集距離が1であるとは、比較されている文字列が一文字しか異なっていないということです. 異表記対の正例は48,067例、負例は2,758例あり、正例か負例か確実に判断できない(準異表記対と呼ぶ)例が10,730例あります。現時点での負例は正例との区別が特に困難な異語同義対のみです。また、Version 1.1で、機械学習により自動獲得した100万を超える異表記対を追加しました。

本データは以下の四種類のデータから構成されます:

人手で作成した異表記対 (Version 1.0で公開)
[v] 編集距離が1の異表記対(48,067例)
[d] 編集距離が1の準表記対(10,730例)
[s] 編集距離が1の非異表記対のうちで、異語同義対である場合(2,758例)
機械学習により自動獲得した異表記対(Version 1.1で追加公開、約110-150万例)
人手で作成した異表記対のうち、[v]が確実な正例で、[s]が確実な負例の一部であり、[d]は正例とも負例とも決めがたい例ということになります。確実な負例の数が少ないのは、異語同義語対に限定しているためです。今後の更新では負例を優先的に段階的に追加していく予定です。

下に、異表記対と準異表記対と異語同義対(異表記の負例)の実例を、おのおの10例ほど示します。例でA < B | C > D という表記は、ABDとACD が(B とC の違いによって) 異表記対であることを表わします。その特別な場合として、A < B > D は、ABDとADが異表記対であることを表わします。


編集距離が1の異表記対の例:

1. 第 < 一 | 1 > 週目
2. < 4 | 四 > カ月後
3. Flash  < P | p > layer
4. ゴミ置 < き > 場
5. ギタープレ < ー | イ >
6. ブルース < ・ > スプリングスティーン
7. テディ < ー > ベアー
8. < ご > 希望どうり
9. そこ < い > らじゅう
10. お < 替 | か > わり

編集距離が1の準異表記対の例:

1. 法 < 律 > 違反
2. 補足 < 的 > 給付
3. 調査 < 手 > 法
4. 株 < 式 > 取得
5. 米 < 国 > 本社
6. 手数料 < 金 > 額
7. 胴体下 < 部 >
8. 動作性 < 能 >
9. 土曜・日曜 < 日 >
10. 依頼者 < 様 >

編集距離が1の異語同義対(非異表記対の一種)の例:

1. < 社 > 日本青年会議所
2. コンスタンティヌス < 帝 >
3. インテル < 社 >
4. Kodak < 社 >
5. フィナンシャル・タイムズ < 紙 >
6. ビハール < 州 >
7. 北海道札幌 < 市 >
8. 差別的 < だ >
9. エリア < 以 > 外
10. 車いす < 専 > 用

本資源の説明書(契約後は、「日本語異表記対データベース(Version 1.1)ALAGIN_allographic-pairs-v1.1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約62MB、展開時約275MB。


バージョン情報:

(Version 1.1)

機械学習により自動獲得した100万を超える異表記対を追加しました。

 



(A-8)日本語係り受けデータベース

本データベースは、大量の日本語のWeb文書(約6億ページ、430億文、クロール時期は 2007年5月19日から11月13日)のデータをJuman/KNPで係り受け解析した結果から、語句と語句の係り受けを抽出し、ある程度のノイズデータを取り除いた上で、係り受けとその頻度を収録したもので、約46億種類の係り受けが含まれています。

また、Wikipediaのエントリ(記事タイトル)により形態素解析器の辞書を拡張して解析し直して抽出したデータを追加いたしました。Wikipediaエントリを含む係り受けに関しては、オープンソースの言語資源「日本語Wikipediaエントリの係受けデータベース」としてWikipediaと同様のクリエイティブ・コモンズライセンスにて、同時公開しております。詳しくはこちらをご覧下さい。


本データベースには、例えば、次のようなデータが含まれています。

(関サバ を 食べる 20回)(関サバ の お造り 7回)....

既にALAGINより公開されている「文脈類似語データベース」のようなデータの
作成に利用できる他、知識獲得や教師なし学習の元データとしてなど、NLPにおいて、様々な利用が可能な基礎的なデータベースとなっております。

バージョン情報:

 

(Version 1.0)

本資源の説明書(契約後は、 「日本語係り受けデータベース(Version 1)DEP_ALAGIN_V1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約6GB、展開時約41GB。



(Version 1.1)

Version 1.0からの主な変更点は、元となるデータを約1億ページ(60億文)から約6億ページ(約430億文)に増強したことです。
本資源の説明書(契約後は、 「日本語係り受けデータベース(Version 1.1)DEP_ALAGIN_V1.1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約50GB、展開時約345GB。







(A-9)基本的意味関係の事例ベース

「基本的意味関係の事例ベース」は、文脈類似語データベースをもとに、文脈類似度の高い2語間の関係を分類し、ラベル付けした結果を収録したものです。 本データベースに収録される語対は、文脈類似語データベースの見出し語に対する類似語から、スコアが高い順に選択し、見出し語と組み合わせて生成しています。
分類には2語間の関係を表す分類ラベルを用いています。公開中のデータで使用している分類ラベルは下表の通りです。

分類ラベル 分類名 説明 例
v 異表記対 読みが同じで意味が同じである語対。 [一リーグ制,1リーグ制]
[100メートル,100m]
[ゆううつ,憂鬱]
[肩かけ,肩掛け]
[アタリ,ATARI]
[Kernel,kernel]
[うみへび,海ヘビ]
[問い合わせ,問合せ]
[薮,藪]
[ハードディスク,ハード・ディスク]
[オーソリティ,オーソリティー]
[バイオリン,ヴァイオリン]
[町,街]
a, A 略記対 一方の語の文字数または音節数が他方の語より少なく、他方の語の短縮形あるいは略称と呼ばれる語対。「word1/word2はword2/word1の略である」が言える。 [インターネット中継,ネット中継]
[短大,短期大学]
[ハードディスクドライブ,HDD]
[年パス,年間パスポート]
[ろうきん,労働金庫]
s 異形同義語対 読み、形態素数、音節数のいずれかが異なり、異表記対にも略記対にも該当しない、同一の事象/事物を指す語対。原則的に「word1/word2のことをword2/word1とも言う」が言える。 [ご飯,食事]
[ガウス分布,正規分布]
[単独トップ,単独首位]
[ワルキューレ,ヴァルキリー]
[キネマ,シネマ]
[お問い合わせ,問合せ]
[山田,山田氏]
[うすくち,うすくちしょうゆ]
[しらたき,糸こんにゃく]
[東京,江戸]
[ディレクトリ,フォルダ]
[キャリアサポートセンター,就職支援センター]
d 対義語対 互いに対義である語対。 [右側,左側]
[低抵抗,高抵抗]
[インフレ,デフレ]
p, P 部分・全体語対 部分を表わす語と全体を表わす語との語対。 [手,親指]
[椅子,背もたれ]
[ジョン・レノン,ビートルズ]
[太平洋戦争,第二次世界大戦]
[大阪,近畿地方]
g 同類語対 過度に抽象的でない共通の上位語をもつ語対。 [アロマテラピー, リフレクソロジー]
[すずめ,ハト]
[すべり台,ジャングルジム]
[急行,特急]
[串,割り箸]
[剣,弓]
[合算,換算]
[小雨,霧雨]

カンマ(,)を区切り記号とする一行一レコードのデータです。2種類のフォーマットで提供しています。

(フォーマットA)
一行一語対のデータです。先頭カラムに分類ラベルがあります。
例:
v,夕暮れどき,夕暮れ時
s,夕暮れどき,日暮れ時
s,夕暮れどき,日没時
s,夕暮れどき,黄昏時
s,夕暮れ時,日暮れ時
P,大学,学部
s,大学キャンパス内,大学構内
d,大皿,小皿
a,天パ,天然パーマ
g,あじさい,コスモス
g,あじさい,ツツジ

(フォーマットB)
見出し語とその関連語から成るデータです。先頭カラムに見出し語があり、第2カラム以降には関連語がアンダースコア(_)で区切られた分類ラベルとともに列挙されています。
例:
へその緒,v_へそのお,s_臍帯
ほとけ,v_佛,s_みほとけ
ほ乳びん,v_ほ乳瓶,v_哺乳びん,v_哺乳ビン
まっ白,d_まっ黒,d_真黒
アナログ信号,d_ディジタル信号,d_デジタル信号
いたずら電話,a_イタ電
ウェブマネー,v_WEBマネー,a_WM
おきなわ,P_にっぽん
キャッシュコーナー,p_キャッシュディスペンサー,p_ATM,p_ATM機
あざらし,g_あらいぐま,g_アシカ,g_エリマキトカゲ,g_カモシカ,g_カンガルー
霧雨,g_吹雪,g_小雨,g_雪,g_雹,g_霙

バージョン情報:

(Version 1.0)

本バージョンでは、約13,000個の異形同義語対、約700個の略記対、約2,500個の対義語対、約1,300個の部分・全体語対、合計で約17500個の語句対を収録しました。

本資源の説明書(契約後は、「基本的意味関係の事例ベース(Version 1.0)説明書 Classified_Pairs_ALAGIN_v1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 365KB



(Version 1.1)

本バージョンでは、1) 前バージョンにあった重複語対を集約、 2) 部分・全体語対において「部分」と「全体」の別、および「略記対」においてどちらが「略記」かを示す分類ラベルを追加、3) 異表記対を新たに加え、同義語対、略記対、部分・全体語対、対義語対を追加し、前バージョンと合わせて39,561対を収録、4) 従来の形式(フォーマットA)に加え、各収録語に対する関連語を列挙した形式(フォーマットB)を追加しました。

本資源の説明書(契約後は、「基本的意味関係の事例ベース(Version 1.1)Classified_Pairs_ALAGIN_V1.1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: フォーマットA:圧縮時約343KB、展開時約1.2MB。フォーマットB:圧縮時約592KB、展開時約2.1MB。


(Version 1.2)

本バージョンでは、異表記20,057対を新たに追加収録しました。合わせて59,618対を収録しています。

本資源の説明書(契約後は、「基本的意味関係の事例ベース(Version 1.2)説明書 ALAGIN_classified-pairs-v1_2_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: フォーマットA:圧縮時約500KB、展開時約1.9MB。フォーマットB:圧縮時約853KB、展開時約3.3MB。


(Version 1.3)

本バージョンでは、異形同義語10,127対を新たに追加収録しました。合わせて69,745対を収録しています。

本資源の説明書(契約後は、「基本的意味関係の事例ベース(Version 1.3)説明書 ALAGIN_classified-pairs-v1_3_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: フォーマットA:圧縮時約602KB、展開時約2.2MB。フォーマットB:圧縮時約1.0MB、展開時約3.8MB。

(Version 1.4)

本バージョンでは、異形同義語対10,354件、略記対2,079件、同類語対20,258件を新たに追加収録しました。合わせて102,436対を収録しています。

本資源の説明書(契約後は、「基本的意味関係の事例ベース(Version 1.4)説明書 ALAGIN_classified-pairs-V1_4_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: フォーマットA:圧縮時約856KB、展開時約3.1MB。フォーマットB:圧縮時約1.4MB、展開時約5.6MB。
(付録:用語抽出用評価データ)

用語抽出用評価データには、「国名」や「太陽系惑星」などあるカテゴリに属する表現のリスト(全58種, 17,607件)と、「国名と首都」や「県名と県花」などの語対(全58種, 19,387ペア)の2種類のデータが収録されていいます。

本資源の説明書(契約後は、「基本的意味関係の事例ベース付録 用語抽出用評価データ 説明書 Classified_Pairs_ALAGIN_V1_appdx_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量:圧縮時約539KB、展開時約1.7MB。



(A-10)京都観光ブログの評価情報付与データ

本データベースは、情報通信研究機構旧知識処理グループが作成したもので、「京都観光ブログ」と京都観光ブログの「評価情報付与データ」から構成されます。

「京都観光ブログ」は、日本語ブログ記事のデータベースです。京都観光を中心とした内容で、執筆者は47名、合計1041記事(平均約480字)から構成されます。データの作成に当たっては、データの著作権は国立研究開発法人情報通信研究機構が有するという条件の下で執筆者を募り、実際の京都観光に基づいた記事作成を依頼した上で行われています。各執筆者は国立研究開発法人情報通信研究機構が立ち上げたブログサイト(非公開)上で記事を作成しています。配布データはブログサイトから抽出したテキストデータとなります。

「評価情報付与データ」とは「京都観光ブログ」に対して評価情報(評判・意見)が人手で抽出され、評価保持者、評価表現、評価対象などが付与されたデータです。

本データは、観光に関する様々な意見が収録されており、意見解析エンジン等の学習用コー パスとして利用することができます。

「京都観光ブログ」の例

ID タイトル 記事
11 帝釈天像(東寺) 東寺をすべて見終わりました。一番印象的だったのは帝釈天像。とてもきれいなお顔をしていました。(以下略)


「評価情報付与データ」の例

トピック pageID 抽出文 評価表現 評価タイプ 評価保持者 評価対象 対象関係
東寺 11 一番印象的だったのは帝釈天像 一番印象的だった 感情+ [著者] 帝釈天像 属性
東寺 11 とてもきれいなお顔をしていました とてもきれいなお顔をしていました 批評+ [著者] [帝釈天像] 属性
※アノテーション項目の詳細については、データに添付されている基準書をご参照ください。



本資源の説明書(契約後は、「京都観光ブログの評価情報付与データ(Version 1.0)KyotoBlog_ALAGIN_V1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量:圧縮時約1.9MB。展開時約3.6MB。



(A-11)実証実験コーパスを用いた言語モデルおよび辞書

平成21年度に全国5地方で訪日観光分野と対象とした大規模音声翻訳実証実験を実施しました。

この時に収集された日英中韓4か国語の実利用音声データを対象として書き起こした約17万発話を形態素解析処理したものから作成したNグラム(4グラム)データです。

また、音声認識に用いるための発音辞書も同時に提供しています。

観光分野タスクの言語モデルを作成するときには、その内容に関連する書籍の文章やWEB収集したコーパスを利用するのが一般的ですが、実利用時にはズレがあることが考えられます。本データを活用することが、そのズレを少しでも解消するための一助になれば幸いです。

各言語の学習セット例

日本語、韓国語は発音情報を含む形態素になっています。

言語 句読点 データ
ja 有 お客|オキャク 様|サマ 、 忘れ物|ワスレモノ は|ワ 何|(ナニ$ナン) です|デス か|カ ? みたらし団子|ミタラシダンゴ の|ノ 匂い|ニオイ が|ガ し|シ ます|マス 。 いくら|イクラ です|デス か|カ ?
無 お客|オキャク 様|サマ 忘れ物|ワスレモノ は|ワ 何|(ナニ$ナン) です|デス か|カ みたらし団子|ミタラシダンゴ の|ノ 匂い|ニオイ が|ガ し|シ ます|マス <sb> いくら|イクラ です|デス か|カ
en 有 hello how are you today ? we're traveling on a train . where is the hotel ?
無 hello how are you today <sb> we're traveling on a train where is the hotel
zh 有 嗯 , 大家 好 。 我 从 中国 上海 来 , 非常 高兴 见到 你们 。 谢谢 您 的 光临 , 再见 。
無 嗯 大家 好 <sb> 我 从 中国 上海 来 非常 高兴 见到 你们 谢谢 您 的 光临 再见
ko 有 열차|yeol#cha 가|ga <pb> 지연|ji#yeon 됐|dwaet 습니다|sseum#ni#da . 어떤|eo#tteon <pb> 온천|on#cheo 입니까|nim#ni#kka ?
無 열차|yeol#cha 가|ga 지연|ji#yeon 됐|dwaet 습니다|sseum#ni#da 어떤|eo#tteon 온천|on#cheo 입니까|nim#ni#kka


<sb>は文境界記号、<pb>は韓国語の節境界記号である。
日本語形態素解析器は、茶筅2.4.5、IPA辞書2.6.3を使用している。
中国語の形態素解析器はNICT内製を使用している。
韓国語の形態素解析器はPOSTEC製を使用している。

発音辞書

辞書の発音表記は各言語つぎのようになっています。

日本語:カタカナ
英語 :CMU39音素
中国語:ピンイン
韓国語:ローマ字

本資源の説明書
ファイル容量:圧縮時約8MB。展開時約46.5MB。



(B-1)日英翻訳エンジン学習・評価用対訳コーパス

本コーパスはInternational Workshop on Spoken Language Translation (略称 IWSLT)の2005年評価キャンペーンの日英翻訳で使用された基本旅行会話データセットに基づいて作られたコーパスです。 IWSLTとは、毎年開催される音声翻訳の公開評価キャンペーンで、研究ワークショップも同時に行われています。その目的は、共同作業を促進し、学術交流を深めることにあります。

本コーパスの内容は、翻訳機器学習用データ:20,000文、評価用データ:1,500文(日英対訳文)から構成されています。 配布したデータを用いて、各研究機関が開発した機械翻訳手法の精度の確認と当時の参加者のシステムとの比較を行うことができます。

例(学習データ):

IWSLT_2005.train.ja.txt
TRAIN_00001 下 の ホール に ございます 。 今 いくら か 御 持ち 致し ましょ う 。 何 か 外 に 必要 な 物 が ございまし たら 、 御 知ら せ 下さい 。
TRAIN_00002 結構 です 。 それ を 頂き ましょ う 。 包ま なく て も 構い ません 。
TRAIN_00003 直し は し てい ます か 。
TRAIN_00004 信号 は 赤 でし た 。
TRAIN_00005 窓際 の 席 を 御 願い し ます 。
TRAIN_00006 あちら の 旅行 者 案内 所 の 前 です 。
TRAIN_00007 テニス を し てい て 捻っ てしまい まし た 。 ゲーム の 後 は 何 と も なかっ た ん です が 、 その 後 だんだん 青黒く なっ て来 まし た 。 重症 です か 。
TRAIN_00008 暗証 番号 を 押し て下さい 。
TRAIN_00009 海 に 潜る の は 初めて です 。
TRAIN_00010 この 住所 は この 辺 で 聞い た こと ない です ね 。
IWSLT_2005.train.en.txt
TRAIN_00001 It's just down the hall. I'll bring you some now. If there is anything else you need, just let me know.
TRAIN_00002 No worry about that. I'll take it and you need not wrap it up.
TRAIN_00003 Do you do alterations?
TRAIN_00004 The light was red.
TRAIN_00005 We want to have a table near the window.
TRAIN_00006 It's over there, just in front of the tourist information.
TRAIN_00007 I twisted it playing tennis. It felt Okay after the game but then it started turning black-and-blue. Is it serious?
TRAIN_00008 Please input your pin number.
TRAIN_00009 This is my first time diving.
TRAIN_00010 I've never heard of this address around here.
NICTのオンライン評価サーバにアクセスして翻訳精度の評価を行うサービスにつきましては終了させていただきました。

バージョン情報:

(Version 1)

本資源の説明書(契約後は、「日英翻訳エンジン学習・評価用対訳コーパス(Version 1) MTEVAL_ALAGIN_V1_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 圧縮時約2.4MB、展開時約11MB。


(B-2)音声翻訳実証実験固有名詞対訳辞書

平成21年度「地域の観光に貢献する自動音声翻訳技術の実証実験(http://www.soumu.go.jp/menu_news/s-news/02tsushin03_000002.html) 」で採択された5つのプロジェクト、「来道外国人観光客の満足度向上を支援する多言語自動音声翻訳技術の実証実験」、「山梨県における観光振興に貢献する多言語音声翻訳技術の実証実験」、「中部広域観光圏・多言語観光促進プロジェクト」、「関西圏・多言語観光プロジェクト」、「九州域多言語自動音声翻訳を活用した観光・ホスピタリティプロジェクト」において、日・英・中・韓国語の固有名詞辞書を収集し、NICTで整備した辞書です。

データ内容:

日本語、英語、中国語、韓国語の4ヶ国語固有名詞辞書。
辞書はEXCELファイルで見出し語は30,818語、項目は「地域」、「日本語」、「読み」、「カテゴリ」、「英語」、「中国語」、「韓国語」からなっています。
項目のうち「地域」にはその単語を収集した地域を示す01_Hokkaido、02_Kanto、03_Chuubu、04_Kansai、05_Kyuushuのいずれかが記載されています。
また、「カテゴリ」はその単語のカテゴリとして、以下の表のいずれかが記載されています。

地名

レストラン

姓名

土産

交通路

店名

人格

アトラクション

地形名

日姓

組織

日時

国名

日名

団体名

文字列

宿泊施設

外姓

会社名

引用

建物

外名

飲食物

その他

 

例(辞書データ):

 

地域

日本語

読み

カテゴリ

英語

中国語

韓国語

01_Hokkaido

「北の国から」資料館

キタノクニカラシリョウカン

建物

Kita no Kunikara Museum

“北国之恋”资料馆

《북쪽의 나라에서》 자료관

01_Hokkaido

あいの里公園

アイノサトコウエン

交通路

Ainosato koen

爱里公园

아이노사토 고엔

01_Hokkaido

あいの里公園駅

アイノサトコウエンエキ

交通路

Ainosato-koen Station

爱里公园站

아이노사토 고엔 역

 

本資源の説明書
ファイル容量: 圧縮時約2MB(zip形式)、展開時約6MB(Excelファイル)



(B-3)日中特許用語辞書

日中特許用語辞書を、既存の対訳辞書を使用せず、日中特許対訳コーパスをもとに日本語漢字から中国語簡体字への文字マッピング知識や既存の統計的機械翻訳、用語抽出等の各種自然言語処理ツールを用いて自動構築し、最後に人手による修正作業を行って整備した辞書です。

データ内容:

日中特許用語対訳辞書。
日本語の見出し語169959語、中国語の見出し語169384語からなる。各日本語に対し1ないし複数の中国語が対応し、フォーマットは以下になる。


         日本語<tab>中国語1<tab>中国語2<tab>…<tab>中国語n

例(辞書データ):

        電子クーポン e优惠券 优惠券

        電子コネクタ 电气连接器 电子连接器

        電子コントローラ 电子控制器 电子控制

        電子コンポーネント 电子部件 电子组件 电子元件 电子元器件

        電子サイクロトロン共鳴 电子回旋共振

        電子システム 电子系统

本資源の説明書
ファイル容量: 圧縮時約1.8MB(zip形式)、展開時約6.1MB(txtファイル)



(C-2) A Chinese Dependency Parser(CNP)用中国語解析モデル

このデータベースは、NICT言語基盤グループからオープンソースソフトウェアとして配布している係り受け解析器(A Chinese Dependency Parser,略称CNP)Version 1のための中国語解析用モデルパラメータです。Language Data Consortium (LDC) より配布されているChinese Treebank 4.0,5.0,6.0および Chinese Gigaword を用いて学習した、GBK/UTF-8 文字コード用のモデルを提供します。本モデルをCNPと共に用いることにより、高精度な中国語係り受け解析が可能になります。本データベースはCRF++を用いた簡易な中国語形態素解析モデル(GBKエンコーディング用)を含んでおりますので、本データベースのみで、中国語の生の文を入力とした係り受け解析システムを構築することが可能です。

本資源の説明書(契約後は、「CNP用中国語解析モデル(Version 1)説明書 CNP_ALAGIN_CHINESE_MODEL_README.pdf」という名前で同じ内容のファイルがダウンロードできます)
ファイル容量: 497MB(tar.gz形式)
CNPは、http://alaginrc.nict.go.jp/cnp/index.html から配布しております(ライセンス: Common Public License Version 1.0 or later)。

(C-3) 意見(評価表現)抽出ツール用モデル

本データベースは、国立研究開発法人情報通信研究機構 旧知識処理グループ(情報信頼性プロジェクト)によって開発され、高度言語情報融合フォーラム(ALAGIN)からオープンソースソフトウェアとして配布されている「意見(評価表現)抽出ツール」のための意見解析用モデルファイルと評価表現辞書から構成されます。

意見(評価表現)抽出ツールは、1行につき1文が書かれたテキストファイルを入力として、 機械学習を使って意見や評判および評価(以下、これらをまとめて「評価」と呼びます) がテキストファイル中のそれぞれの文に存在するかどうかの判定を行い、その文に評価 が存在すると認められた場合、以下の情報を出力するツールです。

評価を表す表現の抽出(評価表現抽出)
評価の意味的な分類(評価タイプ分類)
評価が肯定的なニュアンスを表すのか、否定的なニュアンスを表すのかの判定(評価極性判定)
評価を発信する主体の抽出(評価保持者同定)
本データベースには(1)-(4)の判定、分類に応じて4種類のモデルファイルが含まれています。このモデルファイルは、Web上の2万文を対象にタグ付与されたデータを元に学習が行われています。また、評価表現辞書は、約35,000 語の評価極性を記載した辞書と、文全体の評価表現を反転させるような語を250語記載した反転辞書の2つの辞書から構成されます。これらの辞書はすべて国立研究開発法人情報通信研究機構 情報分析研究室が構築しています。 本データベースを意見(評価表現)抽出ツールと共に用いることによって、より高精度な評価表現抽出、分類が可能になります。

意見(評価表現)抽出ツールは http://alaginrc.nict.go.jp/opinion/index.html から配布しております。意見(評価表現)抽出ツールはBSDライセンス (Modified BSD License)、LGPL (GNU Lesser General Public License)、または、GPL (GNU General Public License) に従って使用、改変、再配布することができます。

バージョン情報:

(Version 1.2)

意見(評価表現)抽出ツール Version 1.2を用いて学習し直したモデルです。学習時のCRF++の学習パラメータを調整し、10分割交差検定で一番精度の良いパラメータで再学習しました(評価表現抽出のパラメータをc=9に変更)

本資源の説明書
ファイル容量: 46MB (tar.gz形式)

(Version 1.1)

学習コーパスのバグをフィックスし、再学習したものです。本バージョンでは評価保持者の抽出精度が0.6748から0.6930に向上しました。

本資源の説明書
ファイル容量: 46MB (tar.gz形式)

 

(Version 1)

本資源の説明書
ファイル容量: 41MB (tar.gz形式)