AI大模型_系统开发案例-程序员客栈

使用ChatGLM-6B 模型、 langchain 、ChatGLM-10B训练自己的数据集。ChatGLM-6B介绍： ChatGLM-6B是开源的文本生成式对话模型,基于General Language Model(GLM)框架,具有62亿参数,结合模型蒸馏技术,实测在2080ti显卡训练中上(INT4)显存占用**6G**左右。优点:1.较低的部署门槛： FP16 半精度下，ChatGLM-6B 需要至少 13GB 的显存进行推理，结合模型量化技术，一需求可以进一步降低到 10GB（INT8）和 6GB（INT4），使得 ChatGLM-6B 可以部署在消费级显卡上。2,更长的序列长度：相比 GLM-10B（序列长度1024），ChatGLM2-6B 序列长度达32K，支持更长对话和应用。3,人类意图对齐训练：使用了监督微调（Supervised Fine-Tuning）、反馈自助（Feedback Bootstrap）、人类反馈强化学习（Reinforcement Learning from Human Feedback）等方式，使模型初具理解人类指令意图的能力。输出格式为 markdown，方便展示。目前已开源监督微调方法,不足:1,模型容量较小： 6B 的小容量，决定了其相对较弱的模型记忆和语言能力,随着自己训练数据数量和轮次增加,会逐步丧失原来的对话能力,智谱ai于魁飞博士给的训练数据再好在1000条左右。2,较弱的多轮对话能力：ChatGLM-6B 的上下文理解能力还不够充分，在面对长答案生成，以及多轮对话的场景时，可能会出现上下文丢失和理解错误的情况。解决方式：外挂知识库的形式，例如ChatGLM-6B 结合 langchain 实现本地知识库。3，训练完自己的数据后，遗忘掉之前对话的能力，出现灾难性遗忘，解决办法在自己专业领域数据上可以加入通用开源的对话微调数据集一起训练，

AI大模型

作品详情

重点城市程序员兼职推荐

重点岗位程序员兼职推荐