最新
projects Python
Fork 0 关注 0

本项目是一个针对自然语言处理中的多种任务设计的示例项目,涵盖各种任务所用的脚本、基准测试以及数据集。帮助开发者快速熟悉不同的自然语言处理任务,为开发者提供更快捷的入门便利。

原始仓库地址:https://github.com/explosion/projects.git

浏览量:22 下载量:0 项目类别: 命名实体识别
4 months前更新
spacy-models Python
Fork 0 关注 0

本项目是一个专门为自然语言处理任务封装的模型库。本项目可以作为Python库被快速的安装。本项目所包含的模型支持英语、法语、德语、西班牙语等多种语言,能够为开发者提供多种模型,以实现其自己的原型系统。

原始仓库地址:https://github.com/explosion/spacy-models.git

浏览量:12 下载量:0 项目类别: 命名实体识别
4 months前更新
Fork 0 关注 0

本项目是用于预训练的BERT,XLNet和GPT-2的程序。本项目的优点包括:1.直接可使用的BERT,RoBERTa,XLNet和GPT-2;2.使用API可对任务微调预训练的变压器模型;3.使用转换器功能进行文本分类的自定义组件;4.自动对齐字词并输出到语言标记;5.使用智能句子预测功能处理多句子文档;开箱即用的序列化和模型打包。

原始仓库地址:https://github.com/explosion/spacy-transformers.git

浏览量:5 下载量:0 项目类别: 命名实体识别
4 months前更新
spacy Python
Fork 0 关注 0

本项目是专门用于工业应用的自然语言处理库。该项目带有预训练的统计模型和单词向量,目前支持50多种语言的标记化。本项目速度快,用于标记、解析和命名实体识别的卷积神经网络模型,并且易于进行深度学习集成。

原始仓库地址:https://github.com/explosion/spacy.git

浏览量:13 下载量:0 项目类别: 信息检索
4 months前更新
medacy Python
Fork 0 关注 0

本项目是专门用于医学文本挖掘和信息提取的程序。本项目支持快速原型设计,培训和高预测性医学NLP模型的应用。旨在通过提供用于模型训练,预测和组织的实用程序来简化研究人员的工作流程,同时确保系统的可重复性。用于医学命名实体识别的高度预测性,共享任务主导的开箱即用训练模型。

原始仓库地址:https://github.com/nlpatvcu/medacy.git

浏览量:6 下载量:0 项目类别: 信息检索
4 months前更新
pyresparser Python
Fork 0 关注 0

本项目是一个简历筛选程序,用于从简历中提取信息。本程序可以用于提取名称、电子邮件、手机号码、学校名称、公司名称等信息。本程序支持PDF和DOCx文件,如果需要提取DOC文件,需要提取安装textract库。

原始仓库地址:https://github.com/omkarpathak/pyresparser.git

浏览量:12 下载量:0 项目类别: 命名实体识别
4 months前更新
prenlp Python
Fork 0 关注 0

本项目是用于自然语言处理项目的预处理程序。提供了NLP任务的流行数据集,包括用于情绪分析任务的IMDb,NSMC;用于语言建模任务的WikiText-2,WikiText-103,WikiText-ko,NamuWiki-ko。本项目同时也供了用于文本预处理的常用(子词)标记器:SentencePiece,NLTKMosesTokenizer,Mecab。

原始仓库地址:https://github.com/lyeoni/prenlp.git

浏览量:8 下载量:0 项目类别: 命名实体识别
4 months前更新
pyss3 Python
Fork 0 关注 0

本项目是一个可视化的文本分类程序。本项目的优点包括:1.能够自然地解释其原理;2.它对于类别不平衡问题具有鲁棒性,因为它为每个类别学习了语言模型,使得类别之间文档数量的相对差异无关紧要;3.支持多项式和多标签分类;4.支持增量(在线)学习和增量分类;5.非常适合对文本流进行分类。

原始仓库地址:https://github.com/sergioburdisso/pyss3.git

浏览量:3 下载量:0 项目类别: 命名实体识别
4 months前更新
python-mecab Python
Fork 0 关注 0

本项目是一个没有使用swing和pybind而实现的mecab程序。MeCab 是一个基于CRF 的日文分词系统,整个系统的架构采用通用泛化的设计, 用户可以通过配置文件定制CRF训练中需要使用的特征模板。 甚至如果你有中文的分词语料作为训练语料,也可以在该架构下按照其配置文件的规范定制一个中文的分词系统。MeCab 虽然使用 CRF 实现,但是解析效率上确相当高效,比基于 HMM 的 Chasen 的解析速度要快。在一台 Linux 机器上其测试速度可达到 2MB/s,完全达到了工程应用的需求。

原始仓库地址:https://github.com/jeongukjae/python-mecab.git

浏览量:3 下载量:0 项目类别: 命名实体识别
4 months前更新
lida Python
Fork 0 关注 0

本项目实现了一个轻量级的交互式对话注释器。它支持对话注释的完整流水线,包括从原始文本(可能由转录服务输出)的对话/回合分段,到结构化对话数据的标签到注释者之间的分歧解决。本项目支持将任意机器学习(ML)模型集成为注释推荐器,以加快注释速度,是符合要求的API的任何系统。

原始仓库地址:https://github.com/wluper/lida.git

浏览量:10 下载量:0 项目类别: 对话生成
4 months前更新

ihub@pcl.ac.cn 鹏城实验室人工智能研究中心

版权所有:鹏城实验室    粤ICP备18066427号-6    Powerd by 国防科技大学Trustie