深層学習を用いた画像変換に基づく会話からの音声抽出

URI http://harp.lib.hiroshima-u.ac.jp/hiroshima-cu/metadata/12519
ファイル
タイトル
深層学習を用いた画像変換に基づく会話からの音声抽出
別タイトル
Speech extraction from conversation based on image-to-image translation using deep neural networks
シンソウ ガクシュウ オ モチイタ ガゾウ ヘンカン ニ モトズク カイワ カラノ オンセイ チュウシュツ
著者
氏名 高市 晃佑
ヨミ タカイチ コウスケ
別名 TAKAICHI Kosuke
氏名 片上 敬雄
ヨミ カタガミ ヨシオ
別名 KATAGAMI Yoshio
氏名 黒澤 義明
ヨミ クロサワ ヨシアキ
別名 KUROSAWA Yoshiaki
氏名 目良 和也
ヨミ メラ カズヤ
別名 MERA Kazuya
氏名 竹澤 寿幸
ヨミ タケザワ トシユキ
別名 TAKEZAWA Toshiyuki
抄録

We aim to separate sound sources by deep neural networks which has been active in recent years. We attempt to extract a certain human voice from usual conversation using the networks. We focus on image-to-image translation: pix2pix. The algorithm of pix2pix bases on purely procedure of the image processing. Therefore, we need an additional procedure, that is, we convert voice to spectrogram once. After that we perform to learn the networks to separate human voice, we especially pay attention to segmentation between the same sex and opposite sex. Form this point of view, we conducted two experiments using the sounds overlapped both sexes in this paper. Structure-Similarity (SSIM) index and color map representation were used as evaluation criteria. As a result, we confirmed the good extraction of the female voice from the one synthesized both sexes. However, we did not extract the female voice from same sex. Although we reached the conclusion that the separation did not work well, the generated voice seemed to be played naturally. This is not objective judgment. For this reason, it is our future work.

内容記述

2019年度(第33回):2019年6月4日-6月7日:新潟県新潟市(朱鷺メッセ新潟コンベンションセンター)

掲載雑誌名
人工知能学会全国大会論文集
33
開始ページ
1
終了ページ
3
出版年月日
2019
出版者
人工知能学会
DOI
本文言語
日本語
資料タイプ
会議発表論文
著者版フラグ
出版社版
権利情報
本著作物の著作権は人工知能学会に帰属します。本著作物は著作権者である人工知能学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」に従うことをお願いいたします。
関連URL
備考

3Rin2-31
この研究は, 国立研究開発法人科学技術振興機構(JST)の研究成果展開事業「センター・オブ・イノベーション(COI)プログラム」の補助を得ている

区分
hiroshima-cu