该脚本允许您通过混合两个经过微调的Llama 1/2语言模型的层来合并它们。这对于创建模型集成或将两个不同模型的优势结合到一个单一模型中非常有用。合并是基于两个模型之间指定的梯度进行的。
**警告:**不要尝试将Llama 1与Llama 2模型合并。虽然可以运行,但结果会是一团糟。
除非您有128 GB内存,否则这个过程将占用大量虚拟内存。为获得最佳性能,请将交换文件分散到多个驱动器上。
您可以使用以下命令运行脚本:
python BlockMerge_Gradient_Tensors.py --model_path1 /path/to/model1 --model_path2 /path/to/model2 --output_model_path /path/to/output --gradient_values '[1.0, 0.5, 0.0]' --max_shard_size '2000MiB' [--layer_only] [--no_layers]
--model_path1:
--model_path2:
--output_model_path:
--gradient_values:
--max_shard_size:
--layer_only:
--no_layers互斥。--no_layers:
--layer_only互斥。gradient_values)定义:
gradient_values参数是一个浮点数列表,表示两个模型的张量应如何合并的混合比例。值通常在0.0到1.0之间,其中:
1.0表示张量值100%来自model2。0.0表示张量值100%来自model1。介于两者之间的任何值(例如0.5)表示该特定张量是model1和model2的混合。
工作原理:
该列表作为一个指导,说明混合比例如何在模型的张量中变化。脚本使用提供的梯度值之间的线性插值来为模型中的所有张量生成平滑的混合比例梯度。
示例:
假设您提供的梯度值为[1.0, 0.5, 0.0]。这告诉脚本从100%使用model2的值开始混合张量,逐渐过渡到两个模型的50-50混合,最后只使用model1的值。
给定这个列表,脚本根据梯度值计算张量的部分。在这种情况下,有3-1 = 2个部分。如果模型中有24个张量:
model2的值过渡到50-50混合。model1的值。因此,第一个张量可能以100%的model2值混合,第六个张量可能以大约75%的model2值(和25%的model1值)混合,第十二个张量可能以每个模型50%的比例混合,以此类推。
重要提示:
脚本假设列表的长度比张量总数除以部分数少一。任何余数都通过使用最后一个梯度值进行调整。
脚本假设两个模型具有相似的架构,但可以有不同的词汇表大小。如果词汇表大小不同,脚本会处理特定张量("lm_head.weight"和"model.embed_tokens.weight")的差异,通过截断模型2的词汇表以匹配模型1的大小。
--model_path1目录中的相关分词器文件也会被复制到--output_model_path目录中。

python BlockMerge_Gradient_Tensors.py --model_path1 "stabilityai/StableBeluga-7B" --model_path2 "NousResearch/Nous-Hermes-Llama2-7b" --output_model_path "mythologic-mini-7b" --gradient_values "[0.9,0.0,0.0,0.0]" --layer_only


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令, 自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号