In this work, we explore a new problem of frame interpolation for speech videos. Such content today forms the major form of online communication. We try to solve this problem by using several deep learning video generation algorithms to generate the missing frames. We also provide examples where computer vision models despite showing high performance on conventional non-linguistic metrics fail to accurately produce faithful interpolation of speech. With this motivation, we provide a new set of linguistically-informed metrics specifically targeted to the problem of speech videos interpolation. We also release several datasets to test computer vision video generation models of their speech understanding.


翻译:在这项工作中,我们探索了语言视频框架内插的新问题。今天,这种内容构成了在线通信的主要形式。我们试图通过使用一些深层次的视频生成算法来解决这个问题,以生成缺失的框。我们还提供了一些例子,说明计算机愿景模型尽管在常规非语言衡量标准上表现良好,却未能准确生成忠实的语音内插。有了这个动机,我们提供了一套新的语言信息计量标准,专门针对语言视频内插问题。我们还发布了一些数据集,以测试其语言理解的计算机视频生成模型。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【泡泡一分钟】无参相机标定
泡泡机器人SLAM
4+阅读 · 2018年11月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Arxiv
4+阅读 · 2017年11月14日
VIP会员
相关VIP内容
【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员