Clone with HTTP
git clone https://www.modelscope.cn/q021gink/Llama3-Weighted-Combination.git
Llama3权重组合
Llama3权重组合基于LLM-Research/Llama3-8B-Chinese-Chat模型权重文件(model-00001-of-00004.safetensors、model-00002-of-00004.safetensors)和FlagAlpha/Llama3-Chinese-8B-Instruct模型文件组合而成。新模型继承了两者优点,如模型1较快的推理速度、弱智吧数据推理、模型2的思维链特征,不过模型依然存在assistant重复、长序列数学计算错误等问题。 本模型旨在提出新的研究视角:同类型同参数不同微调模型权重文件的随机组合,是否有助于提升模型能力(克服不足)或涌现新能力,模块化权重文件设计是否有价值。
如何使用
下载模型
git clone https://www.modelscope.cn/q021gink/Llama3-Weighted-Combination.git
部分情况下需要更新transformer库
pip install --upgrade transformers
测试
根据https://modelscope.cn/headlines/article/473方法测试。
1.1 安装
git clone https://github.com/modelscope/eval-scope
cd eval-scope
pip install -e .
1.2测试命令
python3 llmuses/run.py --model q021gink/Llama3-Weighted-Combination --template-type llama3 --datasets arc ceval gsm8k --dataset-args '{"gsm8k": {"few_shot_num": 0}}'
自测结果:
2024-05-03 21:23:47,879 - llmuses - INFO - Dump data to /root/.cache/llmuses/outputs/eval_arc-ceval-gsm8k_q021gink_Llama3-Weighted-Combination_default/reviews/modelscope_gsm8k_main.jsonl successfully.
2024-05-03 21:23:47,880 - llmuses - INFO - ** Dump report: modelscope_gsm8k.json
2024-05-03 21:23:47,880 - llmuses - INFO - ** Report table:
+-----------------------------+------------------+--------------------+-------------------+
| Model | arc | ceval | gsm8k |
+=============================+==================+====================+===================+
| Llama3-Weighted-Combination | (arc/acc) 0.7918 | (ceval/acc) 0.4859 | (gsm8k/acc) 0.655 |
+-----------------------------+------------------+--------------------+-------------------+
从前两项测试结果看组合权重模型和原生模型Meta-Llama-3-8B-instruct相差不大(见https://modelscope.cn/headlines/article/473),gsm8k分数下降较大,可见微调导致的灾难遗忘不可避免。 单从前两项测试看,组合权重模型的天花板由原生模型决定。暂不清楚本组合模型父母模型:LLM-Research/Llama3-8B-Chinese-Chat和FlagAlpha/Llama3-Chinese-8B-Instruct模型测试表现如何,感兴趣的朋友可进一步做对比测试。 推测:权重组合不一定涌现新能力,不过可以起到修复作用,如某种微调导致模型能力下降较大,可与原生模型文件进行组合,dropout不好的权重,最大限度保留模型原始能力和部分微调特征。
评论