最新
Fork 0 关注 0

本项目是一个基于自然语言处理技术的文本挖掘项目。本项目针对《 2019年墨西哥政府报告》进行文本挖掘,包括了从PDF文件中提取文本到绘制结果的整个过程。开发者可以以此为例,学习如何针对文本进行分析,并进行可视化展示。

原始仓库地址:https://github.com/phantominsights/mexican-government-report.git

浏览量:0 下载量:0 项目类别: 命名实体识别
19 days前更新
Fork 0 关注 0

本项目是经过微调的预训练GPT2,用于自定义主题特定的文本生成。GPT2的核心思想就是认为可以用无监督的预训练模型去做有监督任务。相比于有监督的多任务学习,语言模型只是不需要显示地定义哪些字段是要预测的输出,所以,实际上有监督的输出只是语言模型序列中的一个子集。

原始仓库地址:https://github.com/prakhar21/textaugmentation-gpt2.git

浏览量:7 下载量:0 项目类别: 命名实体识别
20 days前更新
Fork 0 关注 0

本项目是一个支持多语言的句子嵌入工具库。本项目用于为零镜头跨语言传输计算多语言句子嵌入,尤其是如果没有要处理的语言的训练集时,可以在LASER嵌入的基础上构建一个分类器,对训练数据中使用的任何一种语言进行训练,并将其分类为任何语言的文本。

原始仓库地址:https://github.com/yannvgn/laserembeddings.git

浏览量:3 下载量:0 项目类别: 命名实体识别
20 days前更新
textacy Python
Fork 0 关注 0

本项目是一个基于高性能spaCy库的Python库,用于执行各种自然语言处理(NLP)任务。本项目的优点包括:1.方便的入口点,用于处理由spaCy处理的一个或多个文档,并通过自定义扩展和自动语言识别功能添加了适用于正确的spaCy管道的功能;2.多种可下载的数据集,包括文本内容和元数据;3.灵活地提取单词,ngram,名词块,实体,首字母缩写词,关键术语和其他感兴趣的元素;4.文档的标记化和向量化,具有用于训练,解释和可视化主题模型的功能。

原始仓库地址:https://github.com/chartbeat-labs/textacy.git

浏览量:3 下载量:0 项目类别: 命名实体识别
20 days前更新
Fork 0 关注 0

本项目用于自然语言中的同义词替换。通过使用深度学习技术,将自然语言中的单词替换为其同义词。本项目使用了 wordnetNLTK 的语料库,增强了其鲁棒性。

原始仓库地址:https://github.com/paubric/python-sirajnet.git

浏览量:3 下载量:0 项目类别: 命名实体识别
21 days前更新
Fork 0 关注 0

本项目是一个关于自然语言处理、文本挖掘的实践项目集,包括了大规模短语提取、Gensim Word2Vec、TFIDFTransformer与TFIDFVectorizer、使用Gensim访问预训练的单词嵌入等多个项目。

原始仓库地址:https://github.com/kavgan/nlp-in-practice.git

浏览量:3 下载量:0 项目类别: 命名实体识别
21 days前更新
projects Python
Fork 0 关注 0

本项目是一个针对自然语言处理中的多种任务设计的示例项目,涵盖各种任务所用的脚本、基准测试以及数据集。帮助开发者快速熟悉不同的自然语言处理任务,为开发者提供更快捷的入门便利。

原始仓库地址:https://github.com/explosion/projects.git

浏览量:9 下载量:0 项目类别: 命名实体识别
21 days前更新
spacy-models Python
Fork 0 关注 0

本项目是一个专门为自然语言处理任务封装的模型库。本项目可以作为Python库被快速的安装。本项目所包含的模型支持英语、法语、德语、西班牙语等多种语言,能够为开发者提供多种模型,以实现其自己的原型系统。

原始仓库地址:https://github.com/explosion/spacy-models.git

浏览量:4 下载量:0 项目类别: 命名实体识别
21 days前更新
Fork 0 关注 0

本项目是用于预训练的BERT,XLNet和GPT-2的程序。本项目的优点包括:1.直接可使用的BERT,RoBERTa,XLNet和GPT-2;2.使用API可对任务微调预训练的变压器模型;3.使用转换器功能进行文本分类的自定义组件;4.自动对齐字词并输出到语言标记;5.使用智能句子预测功能处理多句子文档;开箱即用的序列化和模型打包。

原始仓库地址:https://github.com/explosion/spacy-transformers.git

浏览量:2 下载量:0 项目类别: 命名实体识别
22 days前更新
pyresparser Python
Fork 0 关注 0

本项目是一个简历筛选程序,用于从简历中提取信息。本程序可以用于提取名称、电子邮件、手机号码、学校名称、公司名称等信息。本程序支持PDF和DOCx文件,如果需要提取DOC文件,需要提取安装textract库。

原始仓库地址:https://github.com/omkarpathak/pyresparser.git

浏览量:2 下载量:0 项目类别: 命名实体识别
22 days前更新

ihub@pcl.ac.cn 鹏城实验室人工智能研究中心

版权所有:鹏城实验室    粤ICP备18066427号-6    Powerd by 国防科技大学Trustie