日本語パターン言い換えデータベース：ツール

日本語パターン言い換えデータベースは、係り受け解析の結果を利用して、「AがBの原因となる」というような、文内に任意の名詞AとBを結ぶ表現パターンの言い換えデータベース（各々のパターンに対して類似したパターンをその類似度とともに列挙したもの）です。このデータベースは、AとBという変数に相当する名詞の共起統計に基づいて、現在5000万ウェブ文書から自動獲得したパターン約170万個の言い換えを含みます。このページは日本語パターン言い換えの検索・類似度計算スクリプトを提供します。

注意事項

日本語パターンの言い換え候補は自動的に生成されますので、明らかに言い換えでないパターンも含まれます．
ツールの出力は電子的な方法によって行われており，その内容の正確性，真実性，相当性が保証されるものではありません．また，ツールの出力は国立研究開発法人情報通信研究機構の主体的な意思決定・判断を示すものではありません．
国立研究開発法人情報通信研究機構では，本ツールにより獲得される情報の信頼性について責任を持ちません．また，本ツールの使用に関連して生ずる損失，損害等について，いかなる場合においても一切責任を負いません．

ダウンロード

日本語パターン言い換えデータベースのツール（v0.1）:　pattern-tools-0.1.tar.gz

# 解凍
$ gunzip pattern-tools-0.1.tar.gz
$ tar -xvf pattern-tools-0.1.tar

動作環境

本ツールを実行するに必要なプログラムは基本的にPerlのみです.あと、 File::SortedSeedというPerlモジュールに依存します.

Perl
File::SortedSeek （データの二分探索用）

実行

まずパターンデータを圧縮した状態から作り直します.ダウンロードファイルのscriptsというディレクトリにある、reconstruct-data.shというスクリプトをパターンデータが置いてあるディレクトリにコピーして、実行します.

$ cp scripts/reconstruct-data.sh path/to/data/files/
$ cd path/to/data/files/
$ bash reconstruct-data.sh 
reconstructing data...
done
checking reconstructed data...(may take a while)
done
$

解凍後に約150Gのデータファイルができます。なお、検索スクリプトの方はデータファイルに二分探索を行いますので、 Unix系のOS上でsystem localeによってソート順が影響されることがあります. 上記のreconstruct-data.shの実行時にエラーが発生すれば“LANG”, “LC_ALL”という環境変数を“C”に設定する必要があります (シェルがBashなら、export LANG=C; export LC_ALL=C).

実行コマンド入力例

日本語パターンの言い換えを検索するスクリプトは scripts/find-similar-patterns.plです。下記はその実行例となります。

$ perl scripts/find-similar-patterns.pl ./patternDB.dat '<AはBを防ぐ>' | head
<AがBを防ぐ> 0.0224161276
<AはBを予防する> 0.0186121788
<AでBを防ぐ> 0.0175963197
<Bを防ぐA> 0.0175141447
<AはBを防止する> 0.0132786565
<Bを予防するA> 0.0132532850
<Bを防ぐAです> 0.0118343195
<Bを防止するA> 0.0117291936
<AにBを防ぐ> 0.0114255581
<AはBを防いでくれます> 0.0108145421
$ 
$ # または、パターンファイルから：
$ cat ~/patternfiles/famous.seedpatterns
<Bで有名なA>
<Bで人気のA>
<Bが有名なA>
<A名物B>
<A名物のB>
<Aと言えばB>
<A名産のB>
<A特産のB>
<AはBが名物>
<AはBが有名>
<AはBが有名だ>
<AはBが有名で>
<AはBが有名である>
<AはBが有名です>
<AはBが名物です>
<AはBで有名>
<AはBで有名だ>
<AはBで有名である>
<AはBで有名です>
<AはBで有名な所です>
<AはBで有名な町です>
$
$ perl scripts/find-similar-patterns.pl ./patternDB.dat ~/patternfiles/famous.seedpatterns | head
<AといえばB> 0.0377662401
<Bで知られるA> 0.0185306081
<AといえばBです> 0.0180992786
<BといえばA> 0.0168073959
<Aと言えばBです> 0.0127030069
<Bで有名なAです> 0.0094349223
<Bと言えばA> 0.0091436194
<Bでも有名なA> 0.0070493879
<BといえばAです> 0.0069228147
<AといえばBだ> 0.0067210028
$

Copyright

ツールはフリーソフトウェアです．GPL(the GNU General Public License)に従って本ソフトウェアを使用，再配布することができます. 詳細はhttp://www.gnu.org/licenses/を参照して下さい．

MASTAR プロジェクト
NICT 情報分析研究室（2011年度より言語基盤グループから改称）
国立研究開発法人情報通信研究機構