
高效推理的多模态大语言模型扩展
Cobra项目是一个基于Mamba架构的多模态大语言模型,旨在实现高效推理。该模型支持文本和图像输入,提供预训练权重、训练代码和推理脚本。Cobra在处理视觉语言任务时保持高性能,为研究人员和开发者提供了实用的工具。项目包括模型加载、图像处理和文本生成等功能,便于用户快速上手和应用。
(由SDXL生成,提示词:背景为熔岩的可爱眼镜蛇,卡通风格)
[5/23] 已实施对提示格式的修复,解决了生成过程中的异常行为。请确保使用最新的检查点以适应新的提示格式!
[5/18] 评估代码已上传!
[3/27] 一个直观的演示,展示了我们的Cobra模型和LLaVA v1.5的生成速度。 <img src="https://yellow-cdn.veclightyear.com/ab5030c0/816dd9cd-ef8d-49cb-8962-39f4d0c6773b.gif">
[3/24] 试试我们的在线演示!
[3/24] 训练和推理代码已发布。
[3/24] 我们的模型权重现已可用。
[3/21] 仓库已创建。
本仓库使用Python 3.10构建,但应该与任何Python >= 3.8版本向后兼容。我们需要PyTorch 2.1或更高版本,安装说明可在此处找到。本仓库已使用PyTorch 2.1.0和Torchvision 0.16.0进行了全面测试和开发。
一旦正确安装了PyTorch,您可以通过可编辑安装在本地安装此包(或通过pip install git+https://github.com/h-zhao1997/cobra):
git clone https://github.com/h-zhao1997/cobra cd cobra pip install -e . # 安装mamba和其他包 pip install packaging ninja pip install "mamba-ssm<2.0.0" pip install causal-conv1d # 验证Ninja --> 应返回退出代码"0" ninja --version; echo $?
如果在安装过程中遇到任何问题,请提交GitHub问题。
安装完成后,加载和运行预训练的cobra模型进行推理很简单:
import requests import torch from PIL import Image from pathlib import Path from cobra import load hf_token = Path(".hf_token").read_text().strip() device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu") # 如果您的GPU不支持bf16 dtype = torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16 # 加载预训练的VLM(本地路径或从HF Hub自动下载的ID) model_id = "cobra+3b" vlm = load(model_id, hf_token=hf_token) vlm.to(device, dtype=dtype) # 下载图像并指定提示 image_url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png" image = Image.open(requests.get(image_url, stream=True).raw).convert("RGB") user_prompt = "这张图片中发生了什么?" # 构建提示 prompt_builder = vlm.get_prompt_builder() prompt_builder.add_turn(role="human", message=user_prompt) prompt_text = prompt_builder.get_prompt() # 生成! generated_text = vlm.generate( image, prompt_text, use_cache=True, do_sample=True, temperature=0.4, max_new_tokens=512, )
有关与我们的VLMs交互的完整终端CLI,请查看scripts/generate.py。
可以通过scripts/preprocess.py中的自动下载脚本下载LLaVa v1.5指令数据集:
# 下载`llava-v1.5-instruct`(指令微调)图像和语言数据(包括额外的后处理) python scripts/preprocess.py --dataset_id "llava-v1.5-instruct" --root_dir <数据根目录路径> # (如果您还希望下载显式视觉-语言对齐数据) python scripts/preprocess.py --dataset_id "llava-laion-cc-sbu-558k" --root_dir <数据根目录路径>
LVIS-Instruct-4V和LRV-Instruct也可以通过scripts/additional-datasets中的脚本下载。
以下是如何按照我们论文中的训练方法在单节点的8个GPU上训练Cobra:
# 在仓库根目录下运行 torchrun --standalone --nnodes 1 --nproc-per-node 8 scripts/pretrain.py \ --model.vision_backbone_id "dinosiglip-vit-so-384px" \ --model.image_resize_strategy "resize-naive" \ --model.llm_backbone_id "mamba-2.8b-zephyr" \ --model.type "cobra+3b" \ --model.finetune_global_batch_size 128 \ --model.finetune_per_device_batch_size 8 \ --dataset.type "llava-lvis4v-lrv"
如果您在工作中发现我们的代码或模型有用,请引用我们的论文:
@article{zhao2024cobra, title={Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference}, author={Han Zhao and Min Zhang and Wei Zhao and Pengxiang Ding and Siteng Huang and Donglin Wang}, year={2024}, eprint={2403.14520}, archivePrefix={arXiv}, primaryClass={cs.CV} }
本项目在MIT 许可证下发布
我们的项目基于以下工作构建:


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号