WaveNet
外观
此條目翻譯品質不佳。 (2019年5月11日) |
![]() | 此條目可参照英語維基百科相應條目来扩充。 (2019年4月10日) |
WaveNet(波网)是一个用于生成原始音频的深度神经网络。它是由伦敦人工智能公司DeepMind的研究人员创建的。该技术在2016年9月的一篇论文中概述,通过使用用真实语音记录训练的神经网络方法直接模拟波形,能够生成听起来相对真实的类人声音。[1]据报道,对美国英语和普通话的测试表明,该系统优于Google(谷歌)现有最好的语言合成(text-to-speech)系统,尽管它仍然不如实际的人类语音那么令人信服。[2] WaveNet生成原始波形的能力意味着它可以模拟任何类型的音频,包括音乐。[3]
参考文献
- ^ Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray. WaveNet: A Generative Model for Raw Audio 1609. 2016-09-12. Bibcode:2016arXiv160903499V. arXiv:1609.03499
.
- ^ Kahn, Jeremy. Google’s DeepMind Achieves Speech-Generation Breakthrough. Bloomberg.com. 2016-09-09 [2017-07-06].
- ^ Meyer, David. Google's DeepMind Claims Massive Progress in Synthesized Speech. Fortune. 2016-09-09 [2017-07-06].