Refined-Anime-Text

我要开发同款
匿名用户2024年07月31日
29阅读
所属分类aiPytorch
开源地址https://modelscope.cn/models/mirror013/Refined-Anime-Text
授权协议Apache License 2.0

作品详情

模型文件和权重,请浏览“模型文件”页面获取。
当前模型的贡献者未提供更加详细的模型介绍,但是您可以通过如下git clone命令,或者ModelScope SDK来下载模型。
Clone with HTTP
git clone https://www.modelscope.cn/mirror013/Refined-Anime-Text.git
如果您是本模型的贡献者,我们邀请您根据模型贡献文档说明,及时完善模型卡片内容。es in large language models and to explore challenging LLM continual pre-training problems such as knowledge distillation on specific topics and continual learning of unseen knowledge.

The data was created by taking web-scraped text data (wikipedia excluded in this subset), passing the full web page text through a large language model (GPT-4-32k/GPT-3.5-16K, switching dynamically based on the difficulty) that supports long context windows, and synthesizing a refined version.

The dataset contains text in English and Chinese.

Thank you to milashkaarshif/MoeGirlPediawikitextraw_archive and RyokoAI/Fandom23K for the inspiration. All the data is obtained from publicly available text crawled from the internet, following the rules specified in robots.txt. The data was compiled in February 2024.

Subsets for other topics will be released in the future, so please stay tuned.

用于语言模型的持续预训练的高质量动漫主题文本数据

这是一份包含超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成的文本数据集的动漫主题子集。该数据集此前从未公开发布过。由于社区对动漫文化的浓厚兴趣,且考虑到通识数据集中此类题材的代表性不足,以及原始文本中网络俚语和无关内容的泛滥而导致的低质量、难以清理的问题,我们决定发布这份子集供进一步研究。

这份数据集旨在用于研究大型语言模型中网络亚文化的数据治理,并探索具有挑战性的 LLM 持续预训练问题,例如特定主题的知识蒸馏以及对未见知识的持续学习。

该数据是通过以下方式创建的:获取网络爬取的文本数据(此子集中不包含维基百科内容),将完整的网页文本通过支持长文本窗口的大型语言模型(GPT-4-32k/GPT-3.5-16K,根据难度动态切换),并合成一个精炼版本。

数据集包含英文和中文文本。

感谢 milashkaarshif/MoeGirlPediawikitextraw_archiveRyokoAI/Fandom23K 提供的灵感。所有数据均从互联网上公开可用的文本中爬取,遵循 robots.txt 中规定的规则。数据于 2024 年 2 月编译。

其他主题的子集将在未来发布,敬请期待。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论