Registration info |
参加者 Free
FCFS
発表者 Free
FCFS
|
---|
Description
概要
2020年10月開催の国際学術会議 Interspeech2020 の音声に関する論文読み会です. 今年は 平日に zoom 開催 となります.
URLはこちら http://www.interspeech2020.org/
機械学習に関する論文を普段読んでいる研究者、学生、エンジニアの方を想定しておりますが、誰でもご参加いただけます. 終了後にバーチャル懇親会をやるかもしれません.
発表者について
先着で募集いたします.
紹介したい論文に沿って、ジャンル(音声生成・認識・知覚(パラ言語を含む)・対話)を選択頂きますようお願いします.
ジャンルの配分は調整する場合がございます.
オンライン会場案内
ZOOMを使用します.各自インストールをお願いします.URLは https://zoom.us/j/97187371818?pwd=WS94Q1kxWlR2dzI4NmlldWtvZHpNdz09 です.
発表形式
- 質疑込み20分を予定(目安:講演17分、質疑3分)
- 音声、音楽などを再生させる場合は画面共有時に音声も共有するを選択ください。
- セッション後にディスカッション・質疑応答の時間を取っておりますので、そちらでも議論頂けます。
- 講演者は、お手数ですが各セッション終了後までは待機頂く様、よろしくお願いします。
- 質問事項はGoogle documentに記載して頂き、答えて行く形式とします。
- 発表資料に関しては、発表前にSlideShareやSpeaker Deck等にアップロードして頂き、ハッシュタグ #interspeech2020jp でつぶやいていただくか、主催者までご連絡をお願い致します。
キャンセル
- 参加は抽選(先着順)になりますが、より多くの方へご参加いただきたいと考えています.
- 大まかな参加人数を把握するために,当日都合が悪くなって参加できないことが判明した方は、お手数ですが速やかにキャンセル処理をお願いします.
その他
- 本勉強会は、技術交流が目的です。知識の共有や参加者同士の交流を目的としない方の参加はお断りします。
- 参加目的が不適切だと判断される場合には、運営側で参加をキャンセルさせていただく場合がございます。
スケジュール (質疑まとめ)
時刻 | 講演者 | タイトル | |
---|---|---|---|
13:00-13:10 | 開会挨拶 | 橘 健太郎(LINE) | - |
13:10-13:30 | 音声生成1 | 中村泰貴(東大) | Unsupervised Method to Select a Speaker Subset from Large Multi-Speaker Speech Synthesis Datasets (Slide) |
13:30-13:50 | 音声生成2 | 安部聡志(LINE) | Controllable neural text-to-speech synthesis using intuitive prosodic features (Slide) |
13:50-14:10 | 音声生成3 | 柳田智也(NAIST) | Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning (Slide) |
14:10-14:20 | ディスカッション | - | - |
14:20-14:25 | Break | - | - |
14:25-14:45 | 音声認識1 | 須田仁志(東京大学) | Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario (Slide) |
14:45-15:05 | 音声認識2 | 藤本敬介(ABEJA) | TTS Skins: Speaker Conversion via ASR (Slide) |
15:05-15:25 | 音声認識3 | 坂東宜昭(産総研 / 理研AIP) | A Space-and-Speaker-Aware Iterative Mask Estimation Approach to Multi-channel Speech Recognition in the CHiME-6 Challenge (Slide) |
15:25-15:45 | 音声認識4 | 廣江厚夫(Sony) | Similarity-and-Independence-aware Beamformer (SIBF): A Framework for Target Signal Extraction Using a Magnitude Spectrogram as Reference (Slide) |
15:45-15:55 | ディスカッション | - | - |
15:55-16:00 | Break | - | - |
16:00-16:20 | 音声知覚・パラ言語1 | 斎藤佑樹(東大) | Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion (Slide) |
16:20-16:40 | 音声知覚・パラ言語2 | 須藤 克仁(NAIST) | Relative Positional Encoding for Speech Recognition and Direct Translation (Slide) |
16:40-16:50 | ディスカッション | - | - |
16:50-17:00 | 閉会挨拶 | 高道 慎之介 (東京大学) | - |
Media View all Media
If you add event media, up to 3 items will be shown here.