大規模対話音声コーパス作成を目的とする振幅情報と位相情報に着目した複数話者と単数話者の区間分類

URI http://harp.lib.hiroshima-u.ac.jp/hiroshima-cu/metadata/12578
File
Title
大規模対話音声コーパス作成を目的とする振幅情報と位相情報に着目した複数話者と単数話者の区間分類
Title Alternative
Section Classification of Multiple Speakers and Single Speaker Focusing on Amplitude Information and Phase Information for Creating Large-Scale Dialogue Speech Corpus
ダイキボ タイワ オンセイ コーパス サクセイ オ モクテキ トスル シンプク ジョウホウ ト イソウ ジョウホウ ニ チャクモク シタ フクスウ ワシャ ト タンスウ ワシャ ノ クカン ブンルイ
Author
氏名 羽原 俊輔
ヨミ ハバラ シュンスケ
別名 HABARA Shunsuke
氏名 黒澤 義明
ヨミ クロサワ ヨシアキ
別名 KUROSAWA Yoshiaki
氏名 目良 和也
ヨミ メラ カズヤ
別名 MERA Kazuya
氏名 竹澤 寿幸
ヨミ タケザワ トシユキ
別名 TAKEZAWA Toshiyuki
Abstract

Currently, the necessity of a large-scale speech corpus is increasing, due to development of the end-to-end synthetic speech system. In order to creating a speech corpus from conversational speech, the speech is cut out for each speaker and annotationis performed. Since this task is very burdensome, this study is a basic study of speech corpus creation support. In this study, we propose multiple speakers and a single speaker section classification from dialogue speech as support for speech corpus creation. In particular, we compared section classifications based on phase as well as amplitude as speech features. In addition, the difference between CNN and RNN classification results was discussed. As a result, multi-speaker and single-speaker can be classified by using speech phase information. In addition, we found that the classification accuracy was improved by using CNN.

Description

2020年度(第34回) : 2020年6月9日-6月12日 : オンライン

Journal Title
人工知能学会全国大会論文集
Volume
34
Spage
1
Epage
4
Published Date
2020
Publisher
人工知能学会
NCID
AA11578981
DOI
Language
jpn
NIIType
Conference Paper
Text Version
出版社版
Rights
本著作物の著作権は人工知能学会に帰属します。本著作物は著作権者である人工知能学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」に従うことをお願いいたします。
Relation URL
Note

4Rin1-62
本研究の一部は国立研究開発法人科学技術振興機構(JST)の研究成果展開事業「センター・オブ・イノベーション(COI)プログラム」グラント番号JPMJCE1311の支援によって行われている。

Set
hiroshima-cu