本项目使用DeepMind的ByteNet实现从法语到英语机器翻译功能。ByteNet将传统的RNN转换为conv1d,并在字符级翻译方面获得了快速的训练速度和极佳的性能。本项目将Sub Batch Normal替换为Layer Normalization,且没有使用简单的Bag-of-words来表示字符。
原始仓库地址:https://github.com/buriburisuri/bytenet.git
fairseq 是一个基于 seq2seq 结构的用于神经机器翻译的工具箱。它实现卷积序列卷积NMT模型的序列学习和卷积编码器模型的神经机器翻译,以及一个标准的基于LSTM的模型。其特点是可以在一台机器上进行多个GPU训练,以及在CPU和GPU上进行快速的 beam search。
原始仓库地址:https://github.com/facebookresearch/fairseq.git
**Undreamt**:无监督的神经机器翻译。
本项目是我们的无监督神经机器翻译系统的开源实现,描述如下:
Mikel Artetxe, Gorka Labaka, Eneko Agirre, and Kyunghyun Cho. 2018. Unsupervised Neural Machine Translation. In Proceedings of the Sixth International Conference on Learning Representations (ICLR 2018).
https://arxiv.org/pdf/1710.11041.pdf
原始仓库地址:https://github.com/artetxem/undreamt.git
浏览量:1158
下载量:510
项目类别:
机器翻译
over 1 year前更新
**Marian**是一个高效的神经机器翻译框架,使用纯c++编写,具有最小的依赖性。
主要特点:
- 快速多gpu训练和翻译
- 兼容Nematus和DL4MT
- 高效的纯c++实现
- 开放源码许可(MIT)
原始仓库地址:https://github.com/marian-nmt/marian.git
浏览量:1562
下载量:134
项目类别:
机器翻译
over 1 year前更新
**subword-nmt**是用于神经机器翻译和文本生成的无监督分词。这个存储库包含预处理脚本,用于将文本分割成子单词单元。主要目的是为了方便复现我们的实验。
原始仓库地址:https://github.com/rsennrich/subword-nmt.git
浏览量:2129
下载量:104
项目类别:
机器翻译
over 1 year前更新
这个存储库包含无监督PBSMT和NMT模型的原始实现。神经无监督机器翻译(EMNLP 2018):https://arxiv.org/abs/1804.07755
**注意:**对于NMT方法,我们建议您查看跨语言语言模型预培训和相关的GitHub存储库https://github.com/facebookresearch/XLM, 其中包含更好的模型和更有效的无监督机器翻译实现。
NMT实现支持:
- 三种机器翻译架构(seq2seq, biLSTM + attention, Transformer)
- 能够跨模型/语言共享任意数量的参数
- 去噪auto-encoder训练
- 并行数据训练
- Back-parallel数据训练
- 时多线程生成反向并行数据
以及原始论文中没有用到的其他功能(留给以后的工作):
- 在培训期间使用任意数量的语言
- 使用共享参数的语言模型预训练/联合训练
- 对抗训练
PBSMT实现支持:
- 无监督短语表生成脚本
- Moses自动化训练
原始仓库地址:https://github.com/facebookresearch/UnsupervisedMT.git
浏览量:1807
下载量:609
项目类别:
机器翻译
over 1 year前更新
**nematus**是一个神经机器翻译编解码器模型。
显著特点包括:
- 支持RNN和Transformer架构
- 支持先进的RNN架构:
任意输入特征(分解神经机器翻译);
deep models (Miceli Barone et al., 2017);
所有图层上的dropout (Gal, 2015);
嵌入式绑定(Press and Wolf, 2016);
图层正则化;
词汇模型(Nguyen and Chiang, 2018);
- 训练特征:
多GPU支持文档;
标签平滑;
使用用户定义的终止条件提前停止;
恢复训练(可选MAP-L2正则化到原始模型);
- 评分和解码功能:
批解码;
n-best输出;
评分脚本(给定并行语料库)和重新取新脚本(n-best输出);
服务器模式;
- 其他可用性特性:
用于训练、评分和解码的命令行接口;
json格式的模型超参数存储,词汇表文件和训练进度;
13个翻译方向的预训练模型;
向后兼容性:继续使用带有当前代码基的公开发布的模型(提供了将Theano转换为tensorflow样式的模型的脚本);
原始仓库地址:https://github.com/EdinburghNLP/nematus.git
浏览量:2102
下载量:458
项目类别:
机器翻译
over 1 year前更新
**OpenNMT-tf**是一个使用TensorFlow的通用序列学习工具包。虽然神经机器翻译是主要的目标任务,但它已被设计成更广泛的支持。包括:
- 序列到序列映射
- 序列标记
- 序列分类
- 语言建模
原始仓库地址:https://github.com/OpenNMT/OpenNMT-tf.git
浏览量:1962
下载量:485
项目类别:
机器翻译
over 1 year前更新
**mosesdecoder**是一个机器翻译系统。http://www.statmt.org/moses
建造和安装说明在网上:
http://www.statmt.org/moses/?n=Development.GetStarted
问题应直接发送到邮件列表(发送邮件前不要忘记注册):
http://mailman.mit.edu/mailman/listinfo/moses-support
原始仓库地址:https://github.com/moses-smt/mosesdecoder.git
浏览量:1585
下载量:134
项目类别:
机器翻译
over 1 year前更新
**神经机器翻译(seq2seq)教程**:
seq2seq模型在机器翻译、语音识别和文本摘要等多种任务中取得了巨大的成功。本教程向读者全面介绍了seq2seq模型,并展示了如何从头构建具有竞争力的seq2seq模型。神经机器翻译(NMT)是seq2seq模型的第一个成功的实验平台。所包含的代码是轻量级的、高质量的、可生产的,并与最新的研究思想相结合。我们的目标是:
1. 使用最新的解码器, TensorFlow 1.2数据迭代器
1. 结合我们强大的专业知识,建立seq2seq模型
1. 为建立最好的NMT模型和复制谷歌的NMT (GNMT)系统提供技巧
原始仓库地址:https://github.com/tensorflow/nmt.git
浏览量:1820
下载量:677
项目类别:
机器翻译
over 1 year前更新