上位下位関係抽出ツール version0.82: Hyponymy extraction tool


上位下位関係抽出ツールとは


上位下位関係抽出ツールは,Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係の候補となる表現ペアを抽出します.
本ページは,旧バージョン(version 0.82)用のダウンロードサイトです.最新バージョンは,こちらをご参照下さい.

目次


新着情報


注意事項


ダウンロード


# 解凍
tar zxvf ex-hyponymy-0.82.tar.gz
インストール
 スクリプト言語rubyを使用しているため,本ツール自体のインストールは必要ありません

動作環境


Linux (RedHat Enterprise Linux WS release 4,kernel version 2.6.9-67.0.7.ELsmpで動作確認.)

メモリ8GB,ハードディスク空き容量10GB以上.(メモリが4GB未満の機器で使用する場合は省メモリモードでご使用下さい オプション -s)

本ツールを実行するには,以下のプログラム,データが必要となります.

  • 動作に必要なプログラム
     (各バージョンは動作確認のとれたもの.上位下位関係抽出ツールキットをダウンロードしたディレクトリで各プログラムを実行するためのパス設定が必要です.)
  • 解析用wiki dumpデータ

    実行


    解凍したディレクトリscript内にある,コマンド(ex_hyponymy.sh)により実行.

    # script/ex_hyponymy.sh [オプション]  入力ファイル
    
    # jawiki-*-pages-meta-current.xml.bz2から全ての情報源(hierarchy,definition,category)を利用して上位下位関係候補を抽出
    script/ex_hyponymy.sh jawiki-*-pages-meta-current.xml.bz2
    

    実行結果(上位下位関係の候補と判定された用語ペアとそのSVMスコアを出力)

       hierarchyに対する処理結果:   res_hier_withWD_posWD
       definitionに対する処理結果:   res_def_withWD_posWD
       categoryに対する処理結果:    res_cat_withWD_posWD
    # 出力フォーマット
      上位語    下位語    SVMスコア
    
       上位下位関係の信頼性の指標として、SVMスコアを利用できます。
       (SVMスコアが高いほど信頼性が高い.但し,hierarchyとdefinitionなど別の処理でのSVMスコアの比較はしないで下さい.)

    オプション引数

    プログラム実行時には,次のオプションが指定可能です.

    オプション 説明
    -h ヘルプメッセージを表示
    -d [ディレクトリ名] mecab辞書ディレクトリ指定
    -t [ディレクトリ名] 機械学習用モデルファイルのディレクトリ指定(デフォルトは./data)
    -w [ディレクトリ名] 中間出力ディレクトリ指定 (デフォルトはカレントディレクトリ)
    -o [ディレクトリ名] 最終出力ディレクトリ指定 (デフォルトはカレントディレクトリ)
    -p 中間ファイルを削除しない(preserve)
    -s 省メモリモード
    -H hierarchy実行
    -D definition実行
    -C category実行

    (-H, -D, -C いずれも指定されなければ,全て実行)

    ディレクトリ構成

    ディレクトリ 説明
    script/ プログラム
    data/ モデルファイル用ディレクトリ:機械学習処理で必要とするモデルファイル保存(処理時間が短いモデルファイル)
    data2/ モデルファイル用ディレクトリ:data2ディレクトリには,デフォルトとは別のモデルファイルが保存.処理時間は増大するが,出力結果は少し増える.

    実行コマンド入力例

    # 3種類の上位下位関係候補抽出処理をipadic辞書を指定して実行
    # 既にEUC版のIPA辞書によりmecabを利用している場合は,UTF8でIPA辞書をインストールし,-dオプションによりIPA辞書を指定.
    script/ex_hyponymy.sh -d /usr/local/mecab-0.97/lib/mecab/dic/ipadic jawiki-*-pages-meta-current.xml.bz2
    
    # Category情報のみを利用して上位下位関係の候補を抽出
    script/ex_hyponymy.sh -C jawiki-*-pages-meta-current.xml.bz2
    
    # data2を解析用モデルファイルとして使用
    # data2ディレクトリには,デフォルトとは別のモデルファイルが保存.
    # 出力結果は1割程度増.
    script/ex_hyponymy.sh -t ./data2 jawiki-*-pages-meta-current.xml.bz2
    

    Copyright




    MASTAR プロジェクト
    NICT 言語基盤グループ
    独立行政法人情報通信研究機構