Registration info |
参加者 Free
FCFS
発表者 Free
FCFS
|
---|
Description
概要
2021年8-9月開催の国際学術会議 INTERSPEECH2021 の音声に関する論文読み会です. 今年は 平日に zoom 開催 となります.
URLはこちら https://www.interspeech2021.org/
機械学習に関する論文を普段読んでいる研究者、学生、エンジニアの方を想定しておりますが、誰でもご参加いただけます. 終了後にバーチャル懇親会をやるかもしれません.
発表者について
先着で募集いたします.
紹介したい論文に沿って、ジャンル(音声生成・認識・知覚(パラ言語を含む)・対話)を選択頂きますようお願いします.
ジャンルの配分は調整する場合がございます。
オンライン会場案内
ZOOMを使用します.各自インストールをお願いします。
17:30 open https://u-tokyo-ac-jp.zoom.us/j/88106381824?pwd=REw3R1JlUEJacC9ZZm1GeS9wK3Y5dz09
質問は以下に記載をお願いします。
https://www.dory.app/c/6e72877e/b8ab9a98_interspeech2021-yomi
発表形式
- Lighting talk形式で5分とし、質問時間は合間でまとめて取る予定です。
- 音声、音楽などを再生させる場合は画面共有時に音声も共有するを選択ください。
- セッション後にディスカッション・質疑応答の時間を取っておりますので、そちらでも議論頂けます。
- 講演者は、お手数ですが各セッション終了後までは待機頂く様、よろしくお願いします。
- 質問事項はDoryに記載して頂き、答えて行く形式とします。
- 発表資料は開催者側が用意したGoogle slideに共同編集する形式で作成していきます。スライドURL
- スライドは1枚目に 自己紹介スライド をご用意頂き、内容は2-3枚に納めてください。
キャンセル
- 参加は抽選(先着順)になりますが、より多くの方へご参加いただきたいと考えています。
- 大まかな参加人数を把握するために,当日都合が悪くなって参加できないことが判明した方は、お手数ですが速やかにキャンセル処理をお願いします。
その他
- 本勉強会は、技術交流が目的です。知識の共有や参加者同士の交流を目的としない方の参加はお断りします。
- 参加目的が不適切だと判断される場合には、運営側で参加をキャンセルさせていただく場合がございます。
スケジュール
時刻 | 講演者 | タイトル |
---|---|---|
18:00-18:05 | 開会挨拶 & 諸注意 | 橘 健太郎(LINE) |
18:05-18:10 | 永瀬 亮太郎(立命館大学大学院情報理工学研究科) | #01 Acted vs. Improvised: Domain Adaptation for Elicitation Approaches in Audio-Visual Emotion Recognition |
18:10-18:15 | 高島 悠樹(日立製作所) | #02 Semi-Supervised Training with Pseudo-Labeling for End-To-End Neural Diarization |
18:20-18:25 | 斎藤 佑樹(東京大学) | #03 StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion |
18:25-18:30 | 西邑 勇人(東京大学) | #04 Rich Prosody Diversity Modelling with Phone-Level Mixture Density Network |
18:30-18:35 | 山﨑 善啓(NTTコンピュータ&データサイエンス研究所) | #05 RyanSpeech: A Corpus for Conversational Text-to-Speech Synthesis |
18:35-18:45 | 質疑応答 | |
18:45-18:50 | break time | |
18:50-18:55 | 牧島 直輝(NTTコンピュータ&データサイエンス研究所) | #06 Unsupervised Learning of Disentangled Speech Content and Style Representation |
18:55-19:00 | 庵 愛(NTTコンピュータ&データサイエンス研究所) | #07 Discriminative self-training for punctuation prediction |
19:00-19:05 | 藤田 雄介(LINE株式会社 Speech team) | #08 Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR Systems |
19:05-19:10 | 中込 優(LINE) | #09 Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech Recognition |
19:10-19:15 | 沢田 充奨 (Sony Group Corporation) | #10 Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement Single-channel speech enhancement using learnable loss mixup |
19:15-19:25 | 質疑応答 | |
19:25-19:30 | 閉会挨拶 | 高道 慎之介 (東京大学) |
Media View all Media
If you add event media, up to 3 items will be shown here.