# 解凍 tar zxvf ex-hyponymy-0.82.tar.gzインストール
Linux (RedHat Enterprise Linux WS release 4,kernel version 2.6.9-67.0.7.ELsmpで動作確認.)
メモリ8GB,ハードディスク空き容量10GB以上.(メモリが4GB未満の機器で使用する場合は省メモリモードでご使用下さい オプション -s)
本ツールを実行するには,以下のプログラム,データが必要となります.
解凍したディレクトリscript内にある,コマンド(ex_hyponymy.sh)により実行.
# script/ex_hyponymy.sh [オプション] 入力ファイル # jawiki-*-pages-meta-current.xml.bz2から全ての情報源(hierarchy,definition,category)を利用して上位下位関係候補を抽出 script/ex_hyponymy.sh jawiki-*-pages-meta-current.xml.bz2
# 出力フォーマット 上位語 下位語 SVMスコア上位下位関係の信頼性の指標として、SVMスコアを利用できます。
プログラム実行時には,次のオプションが指定可能です.
オプション | 説明 |
---|---|
-h | ヘルプメッセージを表示 |
-d [ディレクトリ名] | mecab辞書ディレクトリ指定 |
-t [ディレクトリ名] | 機械学習用モデルファイルのディレクトリ指定(デフォルトは./data) |
-w [ディレクトリ名] | 中間出力ディレクトリ指定 (デフォルトはカレントディレクトリ) |
-o [ディレクトリ名] | 最終出力ディレクトリ指定 (デフォルトはカレントディレクトリ) |
-p | 中間ファイルを削除しない(preserve) |
-s | 省メモリモード |
-H | hierarchy実行 |
-D | definition実行 |
-C | category実行 |
(-H, -D, -C いずれも指定されなければ,全て実行)
ディレクトリ | 説明 |
---|---|
script/ | プログラム |
data/ | モデルファイル用ディレクトリ:機械学習処理で必要とするモデルファイル保存(処理時間が短いモデルファイル) |
data2/ | モデルファイル用ディレクトリ:data2ディレクトリには,デフォルトとは別のモデルファイルが保存.処理時間は増大するが,出力結果は少し増える. |
# 3種類の上位下位関係候補抽出処理をipadic辞書を指定して実行 # 既にEUC版のIPA辞書によりmecabを利用している場合は,UTF8でIPA辞書をインストールし,-dオプションによりIPA辞書を指定. script/ex_hyponymy.sh -d /usr/local/mecab-0.97/lib/mecab/dic/ipadic jawiki-*-pages-meta-current.xml.bz2 # Category情報のみを利用して上位下位関係の候補を抽出 script/ex_hyponymy.sh -C jawiki-*-pages-meta-current.xml.bz2 # data2を解析用モデルファイルとして使用 # data2ディレクトリには,デフォルトとは別のモデルファイルが保存. # 出力結果は1割程度増. script/ex_hyponymy.sh -t ./data2 jawiki-*-pages-meta-current.xml.bz2