跳转到内容

WaveNet

维基百科,自由的百科全书

这是本页的一个历史版本,由A2569875留言 | 贡献2019年5月11日 (六) 21:08 (加入{{roughtranslation}}標記到條目 (TW))编辑。这可能和当前版本存在着巨大的差异。

WaveNet(波网)是一个用于生成原始音频的深度神经网络。它是由伦敦人工智能公司DeepMind的研究人员创建的。该技术在2016年9月的一篇论文中概述,通过使用用真实语音记录训练的神经网络方法直接模拟波形,能够生成听起来相对真实的类人声音。[1]据报道,对美国英语和普通话的测试表明,该系统优于Google(谷歌)现有最好的语言合成(text-to-speech)系统,尽管它仍然不如实际的人类语音那么令人信服。[2] WaveNet生成原始波形的能力意味着它可以模拟任何类型的音频,包括音乐。[3]

参考文献

  1. ^ Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray. WaveNet: A Generative Model for Raw Audio 1609. 2016-09-12. Bibcode:2016arXiv160903499V. arXiv:1609.03499可免费查阅. 
  2. ^ Kahn, Jeremy. Google’s DeepMind Achieves Speech-Generation Breakthrough. Bloomberg.com. 2016-09-09 [2017-07-06]. 
  3. ^ Meyer, David. Google's DeepMind Claims Massive Progress in Synthesized Speech. Fortune. 2016-09-09 [2017-07-06].