Contextual Attention を用いたスペクトログラムの復元

URI http://harp.lib.hiroshima-u.ac.jp/hiroshima-cu/metadata/12616
ファイル
タイトル
Contextual Attention を用いたスペクトログラムの復元
別タイトル
Recovering Spectrograms using Contextual Attention
Contextual Attention オ モチイタ スペクトログラム ノ フクゲン
著者
氏名 羽原 俊輔
ヨミ ハバラ シュンスケ
別名 HABARA Shunsuke
氏名 黒澤 義明
ヨミ クロサワ ヨシアキ
別名 KUROSAWA Yoshiaki
氏名 目良 和也
ヨミ メラ カズヤ
別名 MERA Kazuya
氏名 竹澤 寿幸
ヨミ タケザワ トシユキ
別名 TAKEZAWA Toshiyuki
抄録

There is a growing trend towards implementing technologies that use deep neural networks to improve sound quality by signal denoising, and a system that converts voice quality in real-time for the online conference. In the field of computer vision, inpainting techniques based on deep neural networks have also been developed in recent years. In this paper, we focus on an inpainting technique with contextual attention to recover spectrograms. We apply a mask to the time direction of the spectrogram and examine whether the spectrogram can be recovered from the non-masked area. We propose a method to improve the accuracy of speech restoration by providing a gradient in the frequency direction to the spectrogram. As a result, our proposed method improved one of sound metrics: Mel-Cepstral Distortion. We also confirmed that the attention map improved attention in the frequency.

内容記述

2021年度(第35回) : 2021年6月8日-6月11日 : オンライン

掲載雑誌名
人工知能学会全国大会論文集
35
開始ページ
1
終了ページ
4
出版年月日
2021
出版者
人工知能学会
NCID
AA11578981
DOI
本文言語
日本語
資料タイプ
会議発表論文
著者版フラグ
出版社版
権利情報
本著作物の著作権は人工知能学会に帰属します。本著作物は著作権者である人工知能学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」に従うことをお願いいたします。
関連URL
備考

2Xin5-22
本研究の一部は国立研究開発法人科学技術振興機構(JST)の研究成果展開事業「センター・オブ・イノベーション(COI)プログラム」グラント番号JPMJCE1311の支援によって行われている

区分
hiroshima-cu