NICT BERT 日本語 Pre-trained モデル

概要

このページでは、日本語Wikipediaを対象に情報通信研究機構 データ駆動知能システム研究センターで事前学習を行ったBERTモデルをクリエイティブ・コモンズ 表示 4.0 国際ライセンス (CC BY 4.0)のもとで公開しています。

BERTモデル [1] の学習では、バッチサイズやステップ数を増やすことで性能が向上することが報告されています [2]。そこで本ページのモデルでは、[2] のRoBERTa-500Kと同等の計算量となるよう、ステップ数を [1] と同様に100万に保ちつつ、バッチサイズを [1] の16倍の4,096にして学習を行いました。

作成したBERTモデルの評価として、NICTで作成した (fine-tuning用) 学習データと評価データ (これらのデータは大規模Web情報分析システムWISDOM X対災害SNS情報分析システムDISAANA災害状況要約システムD-SUMM次世代音声対話システムWEKDAの研究開発でも利用) 、さらには一般に公開されている学習・評価データを用いて評価を行いました。具体的には、(1) 因果関係認識 (Hashimoto et al., ACL 2014) [3]、(2) ファクトイド質問応答のランキング (関ら, NLP 2020) [6]、(3) バイナリパタン間含意関係認識 (Kloetzer et al., EMNLP 2015) [7]、(4) 東北大 乾・鈴木研究室が公開している解答可能性付き読解 (鈴木ら, NLP 2018) [9] の実験を行いました。いずれのタスクにおいても、すでに公開済みのBERTモデルよりも高い性能が得られており、本ページで公開するBERTモデルを利用することで他の日本語の言語処理のタスクでも性能向上を見込めると考えております(詳しい性能差については評価実験実験結果を参照)。

ダウンロード

BERTモデルはbyte pair encoding (BPE) [10] を使用したバージョンと使用しないバージョンの2種類を公開します。BPEを使用しないバージョンは、モデルの語彙数を10万語としています。

配布ファイルは、BERTオリジナル版 (Google AI Research)ならびにHugging Face版 (Transformers, pytorch-transformers, pytorch-pretrained-bert) のpre-trainedモデルと同様に、以下のファイルを含んでいます。

モデルの詳細

以下の設定でpre-trainingを行いました:

使用方法

本ページで公開する BERT のモデルは、BERTオリジナル版Hugging Face版に含まれるスクリプト (run_classifier.py など) を用いて、追加のfine-tuningを行うことができます。

注意点として、以下があります。

具体的な使用例については、解答可能性付き読解データセットを利用した既存の日本語BERTモデルと比較を行った実験手順をご参照ください。

評価実験

実験の概要

以下の各タスクを用いて、現在公開されているいくつかのBERTモデルと、本ページで公開するモデルの比較を行いました。

このうち、解答可能性付き読解データセットによる実験については、こちらの手順で再現が可能です。

実験結果

実験の結果、いずれのタスクにおいても、現在公開されている他のBERTモデルよりも高い性能が得られています。

モデル 因果関係認識 [3] ファクトイド質問応答 [6] バイナリパタン間含意関係認識 [7] 解答可能性付き読解 [9]
F1平均精度 F1平均精度 F1平均精度 EMF1
NICT BERT 日本語 Pre-trained モデル BPEなし 58.5659.01 73.4782.52 57.9263.01 76.4277.75
NICT BERT 日本語 Pre-trained モデル BPEあり 56.3457.96 69.7277.20 59.1861.16 77.9279.49
BERT-Base, Multilingual Cased 48.4847.19 48.2761.75 51.5154.01 70.1070.16
BERT 日本語 Pretrained モデル (BASE WWM版) 53.0651.76 67.4875.29 53.9056.06 73.8975.65
BERT 日本語 Pretrained モデル (LARGE WWM版) 54.7454.76 70.3477.89 56.6261.18 75.7977.49
Pretrained Japanese BERT models (MeCab + WordPiece, WWM) 54.9954.63 67.0075.08 57.8662.45 77.6878.87
BERT with SentencePiece for Japanese text 54.7655.67 72.8780.28 55.5358.74 73.6676.83
hottoSNS-BERT 48.9447.09 67.2673.43 49.0448.22 61.1464.93

参考文献

更新情報

ライセンス

このページで配布するモデルは、クリエイティブ・コモンズ 表示 4.0 国際ライセンス (CC BY 4.0)の下で利用可能です。

ご利用にあたっての注意事項

本ページで公開するモデルは、統計的機械学習を用いた言語モデルです。モデルの性格上、事実とは無関係な単語列を出力したり、公序良俗の観点で不適切な単語列を出力する可能性があります。モデルの学習は統計的機械学習を用いて行われており、その出力は国立研究開発法人 情報通信研究機構の意思決定・判断を示すものではありません。本ページで公開するモデルの使用に関連して生ずる損失、損害等について、いかなる場合においても一切責任を負いません。以上の点について十分注意した上で自己責任の下でご利用ください。


データ駆動知能システム研究センター
国立研究開発法人 情報通信研究機構
Copyright © National Institute of Information and Communications Technology (NICT). All Rights Reserved.