首页
新建镜像项目
新建托管项目
登录
注册
智立方
/
音频分类
分享
Activities
1
任务
Resources
Repositories
3
Pull Requests
Roadmap
Calendar
Gantt
版本库
查看Git使用指南
如操作版本库需要认证,请使用您的邮箱
3 提交
贡献统计
Apache License 2.0
分支
1
master
ZIP下载
克隆网址
复制
霍龙社
提交于
about 1 month
前 :init commit
core
docs
.gitignore
LICENSE
README.md
model_pack.py
model_service.py
model_test.py
requirements.txt
导出统计结果:
各用户提交统计信息
# 音频分类 该模型输入为16位PCM wav文件,应用PCA转换/量化作为模型输入。该模型实现了了对声音的527分类,参考了Yu等人的多层注意力模型。 该模型已在多个音频类别中进行了测试,但是在音乐/语音类别中往往表现最佳。这主要是由于训练数据集中对这些类别的偏见(90%的音频属于这些类别中的任何一个)。尽管该模型是根据从YouTube视频中提取的Audioset数据进行训练的,但是该模型可以应用于音乐/语音领域之外的各种音频文件。 参考文献: * _Jort F. Gemmeke, Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal, Marvin Ritter_,["Audio set: An ontology and human-labeled dataset for audio events"](https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/45857.pdf), IEEE ICASSP, 2017. * _Qiuqiang Kong, Yong Xu, Wenwu Wang, Mark D. Plumbley_,["Audio Set classification with attention model: A probabilistic perspective."](https://arxiv.org/pdf/1711.00927.pdf) arXiv preprint arXiv:1711.00927 (2017). * _Changsong Yu, Karim Said Barsim, Qiuqiang Kong, Bin Yang_ ,["Multi-level Attention Model for Weakly Supervised Audio Classification."](https://arxiv.org/pdf/1803.02353.pdf) arXiv preprint arXiv:1803.02353 (2018). * _S. Hershey, S. Chaudhuri, D. P. W. Ellis, J. F. Gemmeke, A. Jansen, R. C. Moore, M. Plakal, D. Platt, R. A. Saurous, B. Seybold et al._, ["CNN architectures for large-scale audio classification,"](https://arxiv.org/pdf/1609.09430.pdf) arXiv preprint arXiv:1609.09430, 2016. ## API接口 该模型实现了2个API接口,其调用形式和返回值格式分别如下: - classify:接收音频base64编码字符串,返回识别结果数字编号 - HTTP方法:POST - 模型方法:classify - HTTP请求体格式: {“wav_base64”: <音频文件的base64编码字符串>} - HTTP响应体格式:{“value”: <JSON列表字符串>} 其中JSON列表字符串字符串中JSON对象的格式如下: [ [<中文名1>, <英文名1>, <信心度1>], [<中文名2>, <英文名2>, <信心度2>], [<中文名3>, <英文名3>, <信心度3>], ] - gen_test_wav:生成随机测试音频 - HTTP方法:POST - 模型方法:gen_test_img - HTTP请求体格式: {“text”: “”} - HTTP响应体格式: {“value”: <示例音频的base64编码字符串>} ## 模型托管和演示 ### 模型打包及导入 1. 运行model_pack.py,将在out文件夹下生成一个压缩文件:音频分类.zip。 2. 进入CubeAI平台“模型导入”界面([https://cubeai.dimpt.com/#/ucumos/onboarding](https://cubeai.dimpt.com/#/ucumos/onboarding)),将上述生产的zip文件导入CubeAI平台。 ### 模型托管 - https://cubeai.dimpt.com/#/ucumos/solution/4346ae7adf2047a58c2892aa37eb8fd9/view ### 模型能力开放 - https://cubeai.dimpt.com/#/ai-ability/ability/bc82dd0e354b422b962f73a528b8b180/view ### 模型演示 - https://cubeai.dimpt.com/udemo/#/audio-classifier
Loading...