本项目是基于 TensorFlow 实现的端到端的文本到语音的合成模型。本项目在多个数据集上进行训练,包括 LJ语音数据集、尼克·奥普曼的有声读物以及世界英语圣经数据集。
原始仓库地址:https://github.com/kyubyong/tacotron.git
wav2letter++ 是一款简单而高效的端到端自动语音识别系统,将基于卷积网络的声学模型和图解码结合起来,通过转录的语音训练后,无需强制对齐音素,系统就可以输出字母。其完全由C++编写,使用 ArrayFire Tensor 库和 flashlight machine learning 库来获得最大效率。
原始仓库地址:https://github.com/facebookresearch/wav2letter.git
ParlAI(发音为“ par-lay”)是一个Python框架,用于共享,训练和测试从开放域聊天到VQA(可视化问答)的对话模型。
原始仓库地址:https://github.com/facebookresearch/parlai.git
这个版本库包含自动语音识别/语音合成论文集合,包括HMM, DNN, RNN, CNN, Seq2Seq, Attention。
自动语音识别的研究已有几十年的历史,语音识别模型从HMM-GMM发展到今天的深度神经网络。通过这张出色的论文路线图,我们很有必要了解语音识别的历史。我将涵盖从传统模型到现在流行的模型的论文,不仅仅是声学模型或ASR系统,还有很多有趣的语言模型。
原始仓库地址:https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papers.git
浏览量:1384
下载量:790
项目类别:
语音合成
over 1 year前更新
WaveGlow:基于流生成的语音合成网络。
我们提出了WaveGlow:一种基于流的网络,能够从mel谱图生成高质量的语音。WaveGlow结合了Glow和WaveNet的观点,提供快速、高效和高质量的音频合成,而不需要自动回归。WaveGlow只使用单一网络实现,只使用单一代价函数进行训练:最大化训练数据的可能性,使得训练过程简单稳定。
原始仓库地址:https://github.com/nvidia/waveglow.git