Atom-7B-对话模型

我要开发同款
匿名用户2024年07月31日
35阅读
所属分类ai、llama、pytorch
开源地址https://modelscope.cn/models/FlagAlpha/Atom-7B-Chat
授权协议Apache License 2.0

作品详情

Clone with HTTP

git clone https://www.modelscope.cn/FlagAlpha/Atom-7B-Chat.git

Atom-7B-Chat (32K)

Atom-7B-Chat基于Atom-7B的32K长度的对话模型,由Llama中文社区和AtomEcho(原子回声)联合研发,我们会持续提供更新的模型参数,模型训练过程见(https://llama.family)。

模型的部署、训练、微调等方法详见Llama中文社区GitHub仓库:https://github.com/LlamaFamily/Llama-Chinese

? 中文数据

类型 描述
网络数据 互联网上公开的网络数据,挑选出去重后的高质量中文数据,涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据。
Wikipedia 中文Wikipedia的数据
悟道 中文悟道开源的200G数据
Clue Clue开放的中文预训练数据,进行清洗后的高质量中文长文本数据
竞赛数据集 近年来中文自然语言处理多任务竞赛数据集,约150个
MNBVC MNBVC 中清洗出来的部分数据集

? 中文词表

为了提高中文文本处理的效率,我们针对Llama2模型的词表进行了深度优化。

首先,我们基于数百G的中文文本,在Llama2词表的基础上扩展词库至65,000个单词

经过测试,我们的改进使得中文编码/解码速度提高了约350%

此外,我们还扩大了中文字符集的覆盖范围,包括所有emoji符号,这使的生成带有表情符号的文章更加高效。

对于Llama2原生词表中的一些特殊情况,如数字、英文等,我们尽可能地避免对其进行修改或替换。

最终,成功地实现了一种既能提高中文处理效率又能保持Llama2原有性能的方法。

? 训练过程

模型结构

基于当前最优秀的开源模型Llama2,使用主流Decoder-only的标准Transformer网络结构,支持4K的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。

FlashAttention-2高效训练

Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时,内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一,相较于传统的注意力技术(Attention),它拥有更快速的速度以及更加优化的内存占用率。

基于NTK的自适应上下文扩展技术

  • 可在不继续训练模型的情况下支持更长的上下文
  • 本项目中模型默认支持4K上下文,利用上述技术可扩展至18K+
  • 经过微调可以支持到32K+

? 推理配置

实际应用中,消费级显卡要比专业显卡便宜的多(比如3090相比A10,同样都是24G显存)。

对于消费级显卡,直接FP32肯定放不下,一般最基本的是FP16,而INT8和INT4量化就很有用,例如:

  • 对于3080显卡(10G显存),Atom-7B的INT8只需要8G显存可以直接部署。
  • 对于3080显卡(10G显存),Atom-7B的INT4只需要5G显存可以直接部署。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论