上位下位関係抽出ツール version0.82: Hyponymy extraction tool

上位下位関係抽出ツールとは

上位下位関係抽出ツールは，Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係の候補となる表現ペアを抽出します．
本ページは，旧バージョン(version 0.82)用のダウンロードサイトです．最新バージョンは，こちらをご参照下さい．

注意事項

Wikipediaのデータを利用するため，処理及び処理結果の利用に際しては，Wikipediaの著作権を熟読の上，著作権法を考慮の上，十分に注意をしてください．
本ツールの性格上，Wikipediaに記載されたあらゆる情報に対して上位下位関係を出力する可能性があり，処理結果を利用の際は第三者への誹謗中傷，差別用語，個人情報などに十分な注意をお願いいたします．
抽出される上位下位関係の候補にはノイズが含まれます．また，上位語には非飽和性（曖昧な表現）のある語，成語性のない語なども含まれます．
ツールの出力は電子的な方法によって行われており，その内容の正確性，真実性，相当性が保証されるものではありません．また，ツールの出力は（独）情報通信研究機構の主体的な意思決定・判断を示すものではありません．
（独）情報通信研究機構では，本ツールにより獲得される情報の信頼性について責任を持ちません．また，本ツールの使用に関連して生ずる損失，損害等について，いかなる場合においても一切責任を負いません．

ダウンロード

上位下位関係抽出ツールキットv0.82:　ex-hyponymy-0.82.tar.gz(66MB)

# 解凍
tar zxvf ex-hyponymy-0.82.tar.gz

インストール
　スクリプト言語rubyを使用しているため，本ツール自体のインストールは必要ありません

動作環境

Linux (RedHat Enterprise Linux WS release 4,kernel version 2.6.9-67.0.7.ELsmpで動作確認．)

メモリ8GB，ハードディスク空き容量10GB以上．(メモリが4GB未満の機器で使用する場合は省メモリモードでご使用下さいオプション -s)

本ツールを実行するには，以下のプログラム，データが必要となります.

動作に必要なプログラム
　(各バージョンは動作確認のとれたもの.上位下位関係抽出ツールキットをダウンロードしたディレクトリで各プログラムを実行するためのパス設定が必要です．)

Ruby（ver1.87で動作確認． ver1.9xでは動きません）
MeCab(v0.97):形態素解析器．
IPA辞書(v2.7.0-20070801):Mecab用辞書．

※IPA辞書configure時に文字コードをUTF8に変更のこと．

mecablib for Ruby(v0.98pre1):ruby用バインディング
TinySVM(0.09):SVM分類器
zsh:シェル（bashでも可能）

解析用wiki dumpデータ

ウィキペディア日本語版: http://download.wikimedia.org/jawiki/

実行

解凍したディレクトリscript内にある，コマンド(ex_hyponymy.sh)により実行.

# script/ex_hyponymy.sh [オプション]  入力ファイル

# jawiki-*-pages-meta-current.xml.bz2から全ての情報源(hierarchy,definition,category)を利用して上位下位関係候補を抽出
script/ex_hyponymy.sh jawiki-*-pages-meta-current.xml.bz2

実行結果(上位下位関係の候補と判定された用語ペアとそのSVMスコアを出力)

　　　hierarchyに対する処理結果: 　　res_hier_withWD_posWD
　　　definitionに対する処理結果:　　　res_def_withWD_posWD
　　　categoryに対する処理結果: 　　 res_cat_withWD_posWD

# 出力フォーマット
  上位語    下位語    SVMスコア

　　　上位下位関係の信頼性の指標として、SVMスコアを利用できます。
　　　（SVMスコアが高いほど信頼性が高い.但し，hierarchyとdefinitionなど別の処理でのSVMスコアの比較はしないで下さい.）

オプション引数

プログラム実行時には，次のオプションが指定可能です.

オプション	説明
-h	ヘルプメッセージを表示
-d　[ディレクトリ名]	mecab辞書ディレクトリ指定
-t　[ディレクトリ名]	機械学習用モデルファイルのディレクトリ指定(デフォルトは./data)
-w　[ディレクトリ名]	中間出力ディレクトリ指定 (デフォルトはカレントディレクトリ)
-o　[ディレクトリ名]	最終出力ディレクトリ指定 (デフォルトはカレントディレクトリ)
-p	中間ファイルを削除しない(preserve)
-s	省メモリモード
-H	hierarchy実行
-D	definition実行
-C	category実行

(-H, -D, -C いずれも指定されなければ，全て実行)

ディレクトリ構成

ディレクトリ	説明
script/	プログラム
data/	モデルファイル用ディレクトリ：機械学習処理で必要とするモデルファイル保存(処理時間が短いモデルファイル)
data2/	モデルファイル用ディレクトリ：data2ディレクトリには，デフォルトとは別のモデルファイルが保存．処理時間は増大するが，出力結果は少し増える．

実行コマンド入力例

# 3種類の上位下位関係候補抽出処理をipadic辞書を指定して実行
# 既にEUC版のIPA辞書によりmecabを利用している場合は，UTF8でIPA辞書をインストールし，-dオプションによりIPA辞書を指定．
script/ex_hyponymy.sh -d /usr/local/mecab-0.97/lib/mecab/dic/ipadic jawiki-*-pages-meta-current.xml.bz2

# Category情報のみを利用して上位下位関係の候補を抽出
script/ex_hyponymy.sh -C jawiki-*-pages-meta-current.xml.bz2

# data2を解析用モデルファイルとして使用
# data2ディレクトリには，デフォルトとは別のモデルファイルが保存．
# 出力結果は1割程度増．
script/ex_hyponymy.sh -t ./data2 jawiki-*-pages-meta-current.xml.bz2

Copyright

上位下位関係抽出ツールはフリーソフトウェアです．GPL(the GNU General Public License)に従って本ソフトウェアを使用，再配布することができます. 詳細はhttp://www.gnu.org/licenses/を参照して下さい．

MASTAR プロジェクト
NICT 言語基盤グループ
独立行政法人情報通信研究機構