WaveNet

WaveNet（波网）是一个用于生成原始音频的深度神经网络。它是由伦敦人工智能公司DeepMind的研究人员创建的。该技术在2016年9月的一篇论文中概述，通过使用用真实语音记录训练的神经网络方法直接模拟波形，能够生成听起来相对真实的类人声音。^[1]据报道，对美国英语和普通话的测试表明，该系统优于Google（谷歌）现有最好的语言合成（text-to-speech）系统，尽管它仍然不如实际的人类语音那么令人信服。^[2] WaveNet生成原始波形的能力意味着它可以模拟任何类型的音频，包括音乐。^[3]

参考文献

^ Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray. WaveNet: A Generative Model for Raw Audio 1609. 2016-09-12. Bibcode:2016arXiv160903499V. arXiv:1609.03499 .
^ Kahn, Jeremy. Google’s DeepMind Achieves Speech-Generation Breakthrough. Bloomberg.com. 2016-09-09 [2017-07-06].
^ Meyer, David. Google's DeepMind Claims Massive Progress in Synthesized Speech. Fortune. 2016-09-09 [2017-07-06].

[1] Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray. WaveNet: A Generative Model for Raw Audio 1609. 2016-09-12. Bibcode:2016arXiv160903499V. arXiv:1609.03499 .

[2] Kahn, Jeremy. Google’s DeepMind Achieves Speech-Generation Breakthrough. Bloomberg.com. 2016-09-09 [2017-07-06].

[3] Meyer, David. Google's DeepMind Claims Massive Progress in Synthesized Speech. Fortune. 2016-09-09 [2017-07-06].

[1]

[2]

[3]