各音声資源の概要

契約書の入手及 び記載方法等につきましては、右下の「ALAGIN会員」よりログイン頂く事で、右メニューより「入手の方法(契約書含む)」「契約書の記載方法・代理作成」がご覧になれます。

No. 名称 概要 用途 話者 話者数 発話内容 データ仕様
音声データ ラベルデータ データサイズ
(GB)
ファイル形式 データ形式
A1 日本語高齢者音声データベース 日本語を母国語とする60歳以上の話者の読み上げ音声 音響モデル学習用 高齢者(60歳以上) 100名(男女各50名) 旅行会話100文章、音素バランス50文章x2セット 200文/人 Wav 48kHz/
16-bit/
little endian
読上げ用テキスト(漢字かな混じり、カタカナ) 15
A2 中国語音声データベース 中国各地域出身の母国語話者による中国語(普通話)読み上げ音声および自由発話音声 音響モデル学習用 北京、上海、広東、台湾出身者 100名 (男女各50名)
(各地域ごとに)
旅行会話150文章、音素バランス100文章、日本の固有名詞150単語、対話書き起こし文、自由発話 Wav 48kHz/
16-bit/
little endian
読み上げ用テキスト (注:自由発話は音声のみで書き起こしはない) 172
A3 日本語音声データベース ATRにて開発された、音素バランス文などの文や定形単語を発話内容とする、プロナレータによる多数話者日本語音声データベース。発話内容により、4つセット(Aセット、Bセット、Cセット、Dセット)から構成されている。 大語彙不特定話者音声認識など音声処理研究 プロのアナウンサ、ナレータ Aセット:20名(男女各10名)
Bセット:10名(男:6名、女:4名)
Cセット:240名(男女各:120名)
Dセット:2名(男女各1名)
・Aセット:重要単語5240単語、音声連鎖バランス単語215単語、数字、アルファベット、会議予約タスク会話文など、1話者あたり、約8500語
・Bセット:1話者あたり、音素環境をバランスさせて作成した文(音素バランス文)503文
・Cセット:重要単語5240語から抽出した重要単語520語、音素連鎖バランス単語216語、数字(15語)、音素環境をバランスさせて作成した503文(音素バランス文)
・Dセット:12の小論文(約400文)を朗読音声。
Wav 20kHz/
16bit/
little endian
・Aセット:音素セグメント
・Bセット:音素セグメント、基本周波数、言語・韻律情報
・Bセット:音素セグメントラベル、トランスクリプションデータ
・Dセット:音素セグメント、言語・韻律情報
54
1 ノンネイティブ英語音声データベース 非母語話者の英語読み上げ音声 評価用 話者の母語は、1)日本語、2)韓国語、3)ドイツ語、4)イタリア語、5)フランス語 40名
(各母語ごとに
評価用旅行会話文章、40文以上 Wav 48kHz/
16-bit/
little endian
読み上げ用テキスト 10
2 京都観光案内対話データ対話データベース プロの観光ガイドと、旅行者を模した被験者の2名による対面対話を収録し、書き起こしたデータ。1対話はおよそ、30分であり、ガイドの音声はヘッドセットマイクにより収録。ユーザ音声は、スタンドマイク、またはヘッドセットマイクを用いて収録した。 対話の諸相の分析、対話音声認識のための言語モデル構築など オペレータ:3名、旅行者役:100名 対面対話、100対話(約50時間) Wav 48kHz/
16-bit/
little endian
時刻情報付き
書き起こし (5MB)
17
3 日本語小学生音声データベース 小学校1年生から4年生までの話者が読み上げた旅行会話及び音素バランス文章 音響モデル学習用 日本人小学生1年生から4年生 100名 (男女各50名) 旅行会話100文章、音素バランス100文章 Wav 48kHz/
16-bit/
little endian
読み上げ用テキスト 12
4 日英・日中バイリンガル独話音声データベース 日英または日中のバイリンガルである声優または一般人が発声した音声コーパス。発話スタイルは、演説を中心として、読み上げ調も含む。少数の話者が長時間の収録を行った長時間編と多数の話者が短時間の収録を行った短時間編から構成される。 バイリンガル音声の分析および合成の研究 声優および一般人 日英一般人:男13、女11
日英声優 :男1、女2
日中一般人:男1、女13
日中声優 :男0、女1
・音素バランス文50~100文
・合文法無意味文50~100文
・米国大統領演説90~900文
※いずれも話者当たり。
Wav 48kHz/
32bit/
little endian
・正書法による書き起こしテキスト。
・発音(日:片仮名、中:ピンイン、英:音素)
・ポーズの時間情報
31
5 NICT声優対話コーパス 声優2名による掛け合い収録を行い、2名のうち、1名分について格納したコーパスである。台本の製作にあたっては、京都観光案内対話コーパスから、対話のやり取りが活発な21対話を抽出して書き起こしを行い、台本を製作した。発話ごとに人手で切り出し,無音部分を除いてある。 対話調の音声合成、ロボット・音声対話システムの評価など 声優 1名 ・掛け合い対話:14179発話(約433分)
・ロボット対話評価用:224発話
・対話システム評価用:112発話
Wav 48kHz/
16bit/
little endian
・書き起こし
・自動生成した読み
4.1

T3デコーダ(バイナリ形式)

T3デコーダは、単語数50万語彙を実時間で高精度に処理可能な「重み付き有限状態トランスデューサ(Weighted Finite-stateTransducer:WFST)」を用いた大語彙連続音声認識ソフトウェアです。実行形式モジュール(バイナリ)にて配信します。

<動作環境>

○CPU: x86 または AMD 64bit processor
○OS: 32/64bit Linux または 32/64 bit Windows(XP以上)
○メモリ:タスクに依存

T3デコーダ(ソースファイル形式)

T3デコーダは、単語数50万語彙を実時間で高精度に処理可能な「重み付き有限状態トランスデューサ(Weighted Finite-stateTransducer:WFST)」を用いた大語彙連続音声認識ソフトウェアです。これまで実行形式モジュール(バイナリ)にて配信しておりましたが、この度、ソースを追加配布致します。

<動作環境>

○CPU: x86 または AMD 64bit processor
○OS: 32/64bit Linux または 32/64 bit Windows(XP以上)
○メモリ:タスクに依存