Para-SimStringとは
Para-SimStringシステムは、東北大学の岡崎直観氏の開発した類似文字列検索ライブラリSimStringを検索エンジン部分に利用した、「並列」類似文字列検索システムです。SimStringの詳細はウェブサイトを参照してください。
Para-SimStringシステムは大量のテキストデータの中から指定された文字列に類似する一行を探し出す並列類似文字列検索システムです。Para-SimStringはクラスタ環境での分散処理により、大量のテキストデータを高速に処理することが可能です。コマンドラインでの検索スクリプトの実行による検索と、Webインターフェースによる検索の両機能を備えています。
インストール、設定、使用方法
Para-SimStringシステムのインストール、設定、使用方法に関する情報はPara-SimStringシステムマニュアルを参照してください。
マニュアルはパッケージに含まれているものを参照していただくか、下記のリンクからダウンロードしてください。
著作権&ライセンス
本ソフトウェアはフリーソフトウェアですが、著作権は、国立研究開発法人情報通信研究機構に帰属します。本ソフトウェアは、修正BSDライセンス (Modified BSD License)、LGPL (GNU Lesser General Public License)、または、GPL (GNU General Public License) に従って使用、改変、再配布することができます。
ダウンロード
Para-SimStringシステムのパッケージは以下のリンクより入手してください。
更新情報
2013/05/01 Para-SimStringシステムを公開しました。
参考
-
東北大学 岡崎直観氏のSimStringのウェブサイト
SimString - 高速かつシンプルな類似文字列検索ライブラリ Naoaki Okazaki, and Jun'ichi Tsujii. Simple and Efficient Algorithm for Approximate Dictionary Matching. In Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010), pages 851—859, Beijing, China, August 2010.
http://www.aclweb.org/anthology-new/C/C10/C10-1096.pdf岡崎直観, 辻井潤一. 集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム. 自然言語処理, Vol. 18, No. 2, pp. 89—118, June 2011.
http://www.chokkan.org/publication/okazaki_jnlp2011.pdf