最新
annyang Javascript
Fork 0 关注 0

本项目是一个语音识别程序,包含了一整套的 HTML 代码以及 Javascript 代码,用户可以方便的使用、修改以适应自己的情况。同时本项目还提供了 API,并附有说明,方便使用。

原始仓库地址:https://github.com/talater/annyang.git

浏览量:0 下载量:0 项目类别: 语义识别
8 days前更新
fastai_audio Python
Fork 0 关注 0

本项目是基于 fastai 实现的通过加载原始音频文件并动态生成频谱图的项目。本项目采用信号的小重叠块,并通过快速傅立叶变换(FFT)转换音频,以将它们从时域转换为频域。在通过FFT运行每个部分之后,可以将结果转换为极坐标,从而提供不同频率的幅度和相位。

原始仓库地址:https://github.com/sevenfx/fastai_audio.git

浏览量:2 下载量:0 项目类别: 语义识别
11 days前更新
gantts Python
Fork 0 关注 0

本项目是基于GAN的文本到语音合成和语音转换,使用 PyTorch 来实现。在本项目结合的GAN框架中,对鉴别器进行了训练,以区分自然语音参数和生成的语音参数,同时训练声学模型,以最小化传统最小生成损失和对抗性损失的加权总和,以欺骗鉴别器。由于GAN的目的是使自然语音参数与生成的语音参数之间的差异最小,所以所提出的方法有效地减轻了对生成的语音参数的过度平滑的影响。

原始仓库地址:https://github.com/r9y9/gantts.git

浏览量:1 下载量:0 项目类别: 语义识别
13 days前更新
Fork 0 关注 0

本项目是基于卷积神经网络的从文本到语音合成模型,基于 PyTorch 实现。Deep Voice 生成的录音听起来更自然,更像人类朗读的声音。本项目的优点包括:1.Deep Voice 将深度学习应用于语音合成的全过程;2.需要提取的特征非常少,因此容易应用于不同的数据集;3.与WaveNet相比,这个系统非常高效,专为生产系统而设计。

原始仓库地址:https://github.com/r9y9/deepvoice3_pytorch.git

浏览量:1 下载量:0 项目类别: 语义识别
13 days前更新
Fork 0 关注 0

本项目实现了 WaveNet,能够以端对端(来自声音记录本身)的方式来生成未处理的声音样本成为可能,可以简单的修饰声音,更重要的是和现存的语音处理方式相比,得到的声音明显的更加自然。

原始仓库地址:https://github.com/r9y9/wavenet_vocoder.git

浏览量:2 下载量:0 项目类别: 语义识别
13 days前更新
Fork 0 关注 0

本项目是基于PyTorch实现的语音源分离程序,是从各种录制的声音中提取语音的存储库。本项目更重于使更真实的数据集适应训练模型。同时本项目还可用于歌声分离,使用DSD100数据集进行演唱语音分离!此模型使用更大的模型和更高的采样率(44.1k)进行训练。因此,它可以提供更加稳定和高质量的音频。

原始仓库地址:https://github.com/appleholic/source_separation.git

浏览量:0 下载量:0 项目类别: 语义识别
18 days前更新
zamia-speech Python
Fork 0 关注 0

本项目是一个自动语音识别的工具库。本项目实现了众多语音识别模型,包括:1.Kaldi nnet3链音频模型;2.ARPA格式的KenLM语言模型;3.sequitur g2p型号;4.wav2letter ++模型。同时,本项目也收集了常用的众多语音数据库,方便开发者实现自己的语音识别模型,并进行训练。

原始仓库地址:https://github.com/gooofy/zamia-speech.git

浏览量:6 下载量:0 项目类别: 语义识别
22 days前更新
py-nltools Python
Fork 0 关注 0

本项目是专门针对口语的自然语言处理工具集。本项目的可以实现的功能包括:1.各种语音字母(IPA,X-SAMPA,X-ARPABET等)之间的翻译功能;2.tts:面向使用eSpeak NG,MaryTTS,SVOX Pico TTS或远程TTS服务器和sequitur g2p的抽象层;3.asr:使用kaldi-asr和pocketsphinx的抽象层;4.sequiturclient:使用sequitur的g2p;5.pulseplayer:通过PulseAudio播放音频。

原始仓库地址:https://github.com/gooofy/py-nltools.git

浏览量:4 下载量:0 项目类别: 语义识别
22 days前更新
deep-speaker Python
Fork 0 关注 0

本项目是一个大规模的声纹识别系统。本项目由深度神经网络层组成,从音频中提取特征,基于余弦相似性的时间池和三元组损失。当在普通话语境下训练时,Deep Speaker却能在英文确认和识别的任务上达到5.57%的错误率和88%的正确率。

原始仓库地址:https://github.com/philipperemy/deep-speaker.git

浏览量:0 下载量:0 项目类别: 语义识别
22 days前更新
mlsql Verilog
Fork 0 关注 0

本项目是一个语义推理程序,用于从自然语言描述的表问题中推理出相应的 sql 语句。本项目基于IRNet预训练模型,可以实现从不同领域的数据库中转换复杂的文本到SQL语句的功能。

原始仓库地址:https://github.com/paulfitz/mlsql.git

浏览量:3 下载量:0 项目类别: 语义识别
22 days前更新

ihub@pcl.ac.cn 鹏城实验室人工智能研究中心

版权所有:鹏城实验室    粤ICP备18066427号-6    Powerd by 国防科技大学Trustie