言語資源一覧

契約書の入手及 び記載方法等につきましては、右下の「ALAGIN会員」よりログイン頂く事で、右メニューより「入手の方法(契約書含む)」「契約書の記載方法・代理作成」がご覧になれます。

主な言語資源は以下の通りです。今後、さらに増強を予定しております。

先頭の英数字(A-1など)は対象成果物のID番号(成果物ID)を表します。

公開中の資源

成果物ID 名称 商用利用 概要
A-1 文脈類似語データベース (Version 1.1.2) 約100万の見出し語それぞれに対して、Web文書上での出現文脈が最も類似している名詞最大500個を類似度とともに列挙したもの 詳細
A-2 動詞含意関係データベース (Version 1.3.1) 含意関係が成立している動詞のペア(52,689ペア)と含意関係が成立していない動詞のペア(68,819ペア)の計121,508ペアを列挙したもの 詳細
A-3 負担・トラブル表現リスト (Version 1) 「災害」「心理的ストレス」「アスベスト汚染」など社会活動に負荷を与えたり、マイナス効果をもたらす問題や障害に関係する表現、20,115件を収録したもの 詳細
A-4 上位語階層データ(Version 1) 上位下位関係抽出ツールによって日本語Wikipedia (2007/03/28版)から自動獲得した上位下位関係の上位語を人手で階層化したものであり、合計約69,000名詞句から成る階層的シソーラス 詳細
A-5 単語共起頻度データベース(Version 1.1) 各単語に対して、それとの意味的関連を表す共起スコアの高い単語を、スコアの高い順に、スコアとともに列挙したもの 詳細
A-6 日本語パターン言い換えデータベース(Version 1) 文の係り受け解析の結果を利用して、「AはBが豊富です」のような、一文中で任意の名詞AとBを結ぶパターンに対して、言い換えが可能な別のパターンを収集したもの 詳細
A-7 日本語異表記対データベース(Version 1.1) 文字レベルの編集距離の近い、日本語の語句の異表記対(あるいは「表記揺れの対」)の正例と負例を集めたもの 詳細
A-8 日本語係り受けデータベース(Version 1.1) 大量の日本語文書を係り受け解析した結果から係り受け関係を抽出し、その頻度を収録したもの 詳細
A-9 基本的意味関係の事例ベース (Version 1.4) 約1億ページのWeb文書上において文脈の類似度が高い2語間の意味的関係を人手で分類し、ラベル付けした102,436語対を収録 詳細
A-10 京都観光ブログの評価情報付与データ(Version 1.0) 「京都観光ブログ」と京都観光ブログの「評価情報付与データ」から構成される。「京都観光ブログ」は、日本語ブログ記事のデータベースである。京都観光を中心とした内容で、執筆者は47名、合計1041記事(平均約480字)から構成される。「評価情報付与データ」は「京都観光ブログ」に対して評価情報(評判・意見)が人手で抽出され、評価保持者、評価表現、評価対象などが付与されたデータ 詳細
A-11 実証実験コーパスを用いた言語モデルおよび辞書 大規模音声翻訳実証実験において収集された日英中韓4か国語の実利用音声データを書き起こした約17万発話を形態素解析処理したものから作成したNグラム頻度(4グラム)データおよび、音声認識に用いるための発音辞書 詳細
B-1 日英翻訳エンジン学習・評価用対訳コーパス(Version 1) 不可 【研究利用】International Workshop on Spoken Language Translation (略称 IWSLT)の2005年評価キャンペーンの日英翻訳で使用された基本旅行会話データセットに基づいて作られたコーパスである。翻訳機器学習用データ20,000文、評価用データ1,500文(日英対訳文)から構成 詳細
B-2 音声翻訳実証実験固有名詞対訳辞書 平成21年度「地域の観光に貢献する自動音声翻訳技術の実証実験 」で採択された5つのプロジェクトにおいて、日・英・中・韓国語の固有名詞辞書を収集したものをNICTで整備した辞書 詳細
B-3 日中特許用語辞書 日中特許用語辞書を、日中特許対訳コーパスを元に、各種自然言語処理ツールを用いて自動構築し、最後に人手による修正作業を行って整備したもの 詳細
C-2 係り受け解析システム(CNP)用中国語解析モデル
(簡易形態素解析器付き)
オープンソースソフトウェアとして配布している係り受け解析器(A Chinese Dependency Parser,略称CNP)のための中国語解析用モデルパラメータ 詳細
C-3 意見(評価表現)抽出ツール用モデル(Version 1.2) オープンソースソフトウェアとして配布されている「意見(評価表現)抽出ツール」のための意見解析用モデルファイルと評価表現辞書から構成 詳細

公開予定の資源・サービス一覧

A. 単言語の資源

  • フレーズ言い換えデータベース(商用利用可)
  • 音声質問応答用言語モデル(商用利用可)

B. 多言語の資源

契約・著作権・知財等処理のため提供が予定より遅れております。誠に申し訳ありません。

  • NICT日英科学技術論文抄録対訳コーパス (商用利用可)
  • 日中技術ニュース対訳コーパス
  • NICT日英中対訳コーパス
  • 日英新聞記事対応付けデータ (研究利用)

C. ツール関連

契約・著作権・知財等処理のため提供が予定より遅れております。誠に申し訳ありません。

  • 形態素解析システム用中国語解析モデル(商用利用可)
  • 発信者情報抽出ツール用解析モデル (商用利用可)
  • 主要対立表現抽出ツール用解析モデル (商用利用可)
  • 異表記判定ツール用解析モデル (商用利用可)

D. サービス

  • 音声質問応答システム「一休」(研究利用)
既に公開中のリソースにつきましても、順次バージョンアップを予定しております。