日本語対話コーパス

これは日本語を対象とする対話システムの構築に利用できる言語資源のリストです。

本リストは、理化学研究所 吉野 幸一郎さん発案のもと、C4A研究所 中野 幹生さん、東北大学 赤間 怜奈さん、大阪大学 駒谷 和範さん、JAIST 吉川 禎洋さん、リクルート 林部 祐太さん、京都大学 児玉 貴志さん、東北大学 徳久 良子さんにご協力をいただき、水上雅博が作成いたしました(所属はリスト作成および更新当時のものです)。

もしこのリストに載っていないものや、新たにコーパスをリリースした際には是非、issueやメールで教えてください。

対話コーパス

人同士または人とシステム間(2名以上の場合を含む)で、対話(模擬対話等を含む)を行ったコーパスです。

名前 データ量 形式 研究利用 商用利用 概要
名大会話コーパス 129会話, 合計100時間 音声及び書き起こし CC BY-NC-ND 4.0 同左 日本語母語話者同士の雑談を文字化したコーパス。 現在は国立国語研究所で公開。
CABank Japanese Sakura Corpus 18会話, 合計7.5時間 動画及び書き起こし TalkBank規約に従う 同左 4話者1グループで行われた対話を文字化したコーパス。最初は対話のトピックを参加者に与えて対話を開始する。
CABank Japanese CallHome Corpus 120会話,合計18.5時間 音声及び書き起こし TalkBank規約に従う 同左 北米在住の日本語母語話者による日本国内の家族や友人への国際通話。録音を了承したうえでの雑談。会話内容に制限なし。
CABank Japanese CallFriend Corpus 60会話 音声及び書き起こし LDC User Agreement for Non-Members 同左 言語同定用のコーパス。北米在住の日本語が母国語の話者の通話を録音。対話あたり5~30分程度。話者の性別、年齢、学歴、通話相手などの情報も付与。
BTSJ日本語自然会話コーパス 446会話、合計112.5時間 書き起こし(一部音声あり) 無償(要申し込み) 記載なし いくつかの場面に分けて雑談を収録。「発話の重なり」や「沈黙」など語用論的分析に有益な情報を付与。
日本語話題別会話コーパス (J-TOCC) 15話題×120会話、合計150時間 書き起こし 無償(要申し込み) 記載なし 話題ごと、話者ごとに同じ時間数の対話を収録。話者ごとに話題にどれだけ詳しいかという「話題精通度」情報を付与。
日本語共感的音声対話コーパス (STUDIES) 長い対話150+短い対話720、合計8時間 音声 無償(要申し込み) 記載なし 声優3名(講師役の女性1名と生徒役の男女各1名)による模擬対話音声を収録。対話は台本に従い、指定された感情で対話相手に共感するように発話。
大音泉 The Corpus of Dialogue Speech in Japanese (CDSJ) 500対話以上、1対話15~30分 音声および書き起こし 音声のみ1対話5000円、書き起こしあり1対話20000円 同左 私的又は公的ないくつかの場面を自然に再現した二者間自由発話対話音声データ。
Capex雑談対話コーパス 約15,000対話 テキストのみ 無償 不可 雑談対話アプリの対話ログからシステムとユーザの対話(5ターン)を収集。システムの最終発話には対話破綻ラベルが付与されている。
日本語日常会話コーパス Corpus of Everyday Japanese Conversation (CEJC) 461対話、合計200時間 動画及び書き起こし 無償・要申請または有償・要契約 各年代の男女、各4名による日常生活の対話を収録。一部に談話行為、韻律、話者のメタ情報などが付与されている。
高齢者情報案内・傾聴対話コーパス 60対話、合計20時間 音声及び書き起こし CC BY-NC-ND 4.0 不可 国家資格を持った臨床心理士・介護士、学生(比較用)と高齢者との情報案内・傾聴対話を収録。対話内容はポジティブ・ネガティブなニュースの話題で構成される。
大阪大学 マルチモーダル対話コーパス (Hazumi) 214対話、約54時間 音声・動画・Kinect情報・書き起こしほか 無償・要申請 不可 対話エージェント(別室にて人が操作するWoZ形式)と人との対話の様子を収録。一部に姿勢や生体信号、対話行為のデータも収録。
京都観光案内対話データベース 100会話, 合計50時間 音声及び書き起こし ALAGIN会員のみ 同左? プロの観光ガイド(3名)と、旅行者を模した被験者(100名)による2話者の対面対話を収録。1対話およそ30分程度。
NICT声優対話コーパス 21会話, 合計7.5時間 音声及び書き起こし ALAGIN会員のみ 同左? 声優2名による掛け合いを収録。ただしデータは1名分のみ配布。対話内容は京都観光案内対話データベースから抽出。
GSK2007-A JEITAマルチモーダル対話コーパス 9対話、合計80分 動画、音声及び書き起こし 有償 不可 人同士のタスク対話を収録。タスク内容は「顔課題」と「旅行課題」の二つ。形態素情報や対話構造、韻律に関するタグを付与。
GSK2012-B 電総研道案内対話音声コーパス(1998) 162対話、合計16.5時間以上 音声及び書き起こし 有償 不可 システム(自動推論エンジンを実装した機械)と人間との対話の様子を収録。システムはWOZ形式で操作。発話ターン・うなずき。割り込みなどの分析が可能なよう設計。
GSK2013-A REXコーパス 162対話、合計16.5時間以上 動画、音声及び書き起こしほか 有償 有償・要契約 2名が協力してコンピュータ上で図形パズルを解く過程の対話を収録。音声のみでなく、パズルを解く画面の動画、パズルに対する賛称表現、視線、マウス操作情報などが付与。
日本語Transformer Encoder-decoder対話モデル 学習データセット PC約5k対話、ED約20k対話 テキスト 公開モデルの評価・検証目的でのみ利用可能 不可 Persona-chatおよびEmpathetic Dialogueコーパスの日本語版。どちらもクラウドソーシングを用いて収集。
音声対話データベース - 96年版 (RWCP-SP96) 28対話 音声 無償 不可 人同士のタスク対話を収録。タスク内容は「自動車の購入」と「海外旅行計画」の二つ。顧客(質問者)と専門家(回答者)がペアになり、質問応答形式の自由対話を行う。
音声対話データベース - 97年版 (RWCP-SP97) 13対話 音声 無償 不可 音声対話データベース - 96年版 (RWCP-SP96)と同様の形式で、タスクは「海外旅行計画」のみ。
会議音声データベース (RWCP-SP01) 7対話 音声および動画像 無償 不可 4人以上が参加する模擬会議を収録。模擬会議の内容は参加者の職業に応じた企画・立案に関するテーマを設定。
重点領域研究「音声対話」 対話音声コーパス (PASD) 93対話、合計7.5時間 音声 無償 不可 人同士のタスク対話を収録。タスク内容はスケジュール管理、クロスワードパズル、旅行案内、地図課題など様々。
理研ワープロ操作対話音声コーパス (RIKEN-DLG) 約50対話 音声 無償 不可 人同士のタスク対話を収録。タスク内容はワープロ操作に関する内容が主。「文書作成依頼」など一部のタスクでは複数の話者が参加。
千葉大 地図課題対話コーパス (MapTask) 128対話、約23時間 音声 無償 不可 地図を用いた課題遂行対話。使用した地図画像も入手可能。
三重大 地図課題対話コーパス (MapTask-Mie) 8対話、約2時間 音声 無償 不可 千葉大 地図課題対話コーパス (MapTask)と同様の形式。ただし、地図情報から目標物の名称がなく、指示表現が誘発されるように設計。
宇都宮大学 パラ言語情報研究向け音声対話データベース (UUDB) 7対話 音声および書き起こし 無償 不可 「4コマ漫画並べ替え課題」を対象とした友人同士の対話を収録。音声言語に付随するパラ言語情報(タメ口など)に主眼を置いて設計・構築。加えて感情・態度・意図などのパラ言語情報ラベルを付与。
千葉大学 3人会話コーパス (Chiba3Party) 12対話 音声および書き起こし 無償 不可 同性3人にからなる友人同士12組の雑談を収録。会話の内容や進行には極力制限を加えない自由対話。加えて形態論情報を付与。
The Business Scene Dialogue corpus (BSD) 325/34/34対話 テキスト CC BY-NC-SA 同左 ビジネスシーンに応じた日英の対話を収録。対面での対話やミーティング、プレゼンテーションなどを設定。学習・開発・評価用にデータ分割済み。
工学院大学 多用途型日本手話言語データベース (KoSign) 10対話、合計83分 動画ほか 無償 記載なし 手話母語者2名による10テーマ10件の対話を収録。動画のほかKinect情報やモーションキャプチャも付与。
Pythonでつくる対話システム 配布データ 579対話 テキスト 書籍購入者のみ 書籍購入者のみ 2名の話者によるSkypeを用いたテキストチャットの収録。話者はクラウドソーシングを通して募集。
対話破綻検出チャレンジ 雑談対話コーパス 1146対話 テキスト 無償 無償 NTTドコモが一般公開している雑談対話APIを用いた対話システムとユーザの21発話からなる対話を収録。各システム発話に対して,対話破綻(対話を継続することが困難)かどうかのアノテーションを3段階で付与。
対話システムライブコンペティション 予選評価対話ログ シチュエーション約300対話、オープン約250対話 テキスト MITライセンス MITライセンス 対話システムライブコンペティション(対話システムの性能を競うコンペ)の予選で人とシステムが対話したログを収録。加えて、対話に対して自然さなどのスコアを付与。シチュエーションとオープン、また、システムごとに性能や傾向、対話数が異なることに注意されたい。
おーぷん2ちゃんねる対話コーパス 約815万対話 テキスト 無償 無償 おーぷん2ちゃんねるの掲示板で行われた対話を収録。加えて、コーパス以外に「応答順位付けタスク用データ」や評価用スクリプトも配布されている。
Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス) 210会話+約10万発話 テキスト CC BY 4.0 宿泊施設を探しているカスタマーとエージェントのテキストによる対話を収録したコーパス。加えて、発話の要件(どのような宿が良いかなど)や対話行為などのアノテーションも付与。
日本語映画推薦対話データセット (JMRD) 5,075対話、約11万発話 テキスト CC BY-SA 4.0 クラウドワーカーが推薦者と被推薦者に分かれて映画推薦対話を収録。全ての推薦者側の発話に対して推薦の参考にした外部知識の情報を付与。
Ojousama Talk Script Dataset 200対話 テキスト対話 MITライセンス 一般人とお嬢様の会話を模したおデータセットですわ。
日本語日常対話コーパス(Japanese Daily Dialogue) 5,261対話 テキスト対話 CC BY-NC-ND 4.0 不可 日常生活や学校での対話などの5つのトピックについて,可能な限り規範的な言語表現(語彙、語順)で発話を構成した対話コーパス。
Roseblue ゲームシナリオデータセット 約550万文字 テキスト対話 Apache License 2.0 10タイトルのゲームのシナリオから、話者と発話を抜き出したデータセット。成人向けシナリオもあるため、一部にセクシャルな描写を含む。
Character Conversation Dataset 約2万文字 テキスト対話 Apache License 2.0 公開終了した同人ノベルゲームのシナリオから、話者と発話を抜き出したデータセット。
megagonlabs/instruction_ja 669対話 テキスト対話 MITライセンス kunishou/hh-rlhf-49k-jaの一部を人手で改変して自然な日本語表現にした日本語指示データ
感想付きニュース雑談対話コーパス 合計1047対話 テキスト対話 MITライセンス ニュース記事と、それに対するツイート、ニュースに関連する雑談対話の三つ組のデータ。雑談対話はWizard-of-Oz方式による人同士の対話。
BPersona-chat 合計1495+250対話 テキスト対話 CC BY-NC 4.0 不可 日本語と英語で収集したペルソナチャットと、それをプロの翻訳者、翻訳モデルにより互いに英語と日本語に翻訳したデータ。ペルソナチャットはクラウドソーシングで収集。
対話応答選択テストセット 1,019対話 テキスト対話 記載なし 同左 雑談対話応答生成システムの評価のためのデータセット。OpenSubtitlesとDailyDialogから発話を抽出して人手評価を付与。
RealPersonaChat 13,583対話 テキスト対話 CC BY-SA 4.0 話者本人の(ロールプレイではない)ペルソナと性格特性を持つ雑談対話データセット。ペルソナの個数は233個。
JMultiWOZ: Japanese Multi-Domain Wizard-of-Oz Dataset 4,254対話 テキスト対話 CC BY-SA 4.0 マルチドメインタスク指向型対話データセット。日本国内へにおける観光名所、宿泊施設、飲食店、買い物、交通、天気に関するドメインを含んだ旅行を検討する対話をWizard-of-Oz方式で収集。

対話関連コーパス

人同士の対話ではなくとも、質問応答や講演、インタビューなどの対話形式に近いコーパスです。

名前 データ量等 形式 研究利用 商用利用 概要
GSK2018-A 対照群付き高齢者コーパス インタビュー80件ほか 音声及び書き起こし GSK会員限定無料配布 不可 高齢者群と非高齢者群に対するインタビューを収録。インタビューの内容は「最近あった楽しい出来事」や、自己のエピソードに関する10個の質問について語る自然文課題など数種類ある。
AI王 コンペティション学習用データセット 22,355問ほか テキスト CC BY-NC-ND 4.0? 同左 日本語質問応答研究のためのクイズ問題のデータセット。JSON形式にて(正規化された)問題文、回答が格納される。
AI王+Wikiコンテキスト追加データセット 2939+980問ほか テキスト CC BY-NC-SA 4.0 DEED 同左 AI王 公式配布データセット(JAQKET)へ、Wikipedia のコンテキストを追加したデータセットです。
大声解 The Corpus of Oral Presentations in English (COPE) 合計4時間 音声および書き起こし 無償 不可 『日本語話し言葉コーパス(CSJ)』の模擬講演の一部との対照研究ができるように収録。加えて非流暢性ラベルや節境界ラベルを付与。
JGLUE: Japanese General Language Understanding Evaluation 約7万件 テキスト CC BY-SA 4.0 同左 日本語言語理解ベンチマークの一部に質問応答タスクを収録。JSQuADとJCommonsenseQAの2種があり、それぞれTrain/Dev/Testに分割済み。
Japanese Visual Genome VQA dataset 約80万件 テキスト CC 4.0 同左 日本語のVisual Question Answering (VQA)データセット。QA部分のみ配布され、画像は別途Visual Genomeからダウンロードする。
YJ Chat Detection Dataset 約1.5万発話 テキスト 無償? 不可 Intelligent Assystantへの話しかけに対して、雑談かそれ以外かのラベルを振ったデータセット。
Yahoo!知恵袋データ(第3版) Q約263万、A約670万件 テキスト 無償? 不可 Yahoo!知恵袋に投稿されたQAデータ。質問と回答以外に質問のカテゴリ、投稿および解決の日時、ベストアンサーフラグなども付与。
japanese-contextual-qa-chat 合計10万件程度 テキスト MITライセンス 抽出型QAのデータセットJSQuadとJaQuADの回答を、チャットボットの回答のような形式に変換したデータです。

更新履歴