Falcon-40B 因果解码器大模型开源项目

我要开发同款
匿名用户2023年06月01日
62阅读
开发技术Python
所属分类LLM(大语言模型)、人工智能
授权协议Apache

作品详情

Falcon-40B是400亿参数的因果解码器模型,它在RefinedWeb的1000Btoken上进行训练,并使用精选数据集增强。它在Huggingface的OpenLLM排行榜上排首位,其性能优于LLaMA、MPT、RedPajama和StableLM等。

Falcon-40B使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。

Falcon从公网上抓取内容构建好Falcon的初始预训练数据集后,再使用CommonCrawl转储,进行大量过滤(包括删除机器生成的文本和成人内容),并消除重复数据,最终得到一个由近5万亿个token组成的庞大预训练数据集。

Falcon一共包含4个版本:

Falcon-40B:在1万亿token上进行训练,并使用精选语料库进行了增强;主要接受英语、德语、西班牙语、法语的训练,不会中文。Falcon-40B-Instruct:在Baize上进行了微调,使用FlashAttention和多查询对推理架构进行了优化,是一个即用型聊天模型。Falcon-7B:参数70亿,在1.5万亿token上进行了训练,作为一个原始的预训练模型,还需要用户针对大多数用例进一步微调。Falcon-RW-7B:参数70亿,在3500亿token上进行训练,该模型旨在用作“研究神器”,单独研究各种在网络数据进行训练的影响。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论