InternVL2-2B-AWQ

InternVL2-2B-AWQ

跨多语言多图像任务的高效视觉语言模型

InternVL2-2B-AWQ以AWQ算法实现4bit权重量化,模型推理速度较FP16提升至2.4倍。lmdeploy兼容众多NVIDIA GPU进行W4A16推理,提升离线批量推理效率。同时,该项目提供RESTful API服务并兼容OpenAI接口,快速部署和应用于视觉-语言任务。此多语言兼容的模型不仅提高推理效率,还具备灵活的服务特性。

开源项目图像文本API接口模型多模态HuggingfaceInternVL2-2B模型量化Github

InternVL2-2B-AWQ项目介绍

项目背景

InternVL2-2B-AWQ是一个提供图片到文字转换的多模态模型项目。它基于OpenGVLab的InternVL2-2B基础模型,利用了先进的量化技术来提升模型的推理速度。该项目不仅支持图像和视频的识别和描述,还能通过自定义代码实现更复杂的视觉和语言结合任务。

技术细节

InternVL2-2B-AWQ项目采用了一种称为AWQ的量化算法,这是INT4的权重量化方法。通过高性能的CUDA内核支持,4bit量化模型的推理速度比传统FP16计算快了2.4倍。这对于需要快速处理大规模数据的应用场景来说,极具吸引力。

支持的GPU型号

该项目支持以下NVIDIA的GPU型号进行W4A16推理:

  • Turing (sm75): 20系列, T4
  • Ampere (sm80, sm86): 30系列, A10, A16, A30, A100
  • Ada Lovelace (sm90): 40系列

在进行量化和推理之前,需要确保已经安装lmdeploy软件包。

pip install lmdeploy==0.5.3

推理功能

InternVL2-2B-AWQ提供支持批量离线推理的功能,可以通过以下示例代码进行尝试:

from lmdeploy import pipeline, TurbomindEngineConfig from lmdeploy.vl import load_image model = 'OpenGVLab/InternVL2-2B-AWQ' image = load_image('https://raw.githubusercontent.com/open-mmlab/mmdeploy/main/tests/data/tiger.jpeg') backend_config = TurbomindEngineConfig(model_format='awq') pipe = pipeline(model, backend_config=backend_config, log_level='INFO') response = pipe(('describe this image', image)) print(response.text)

有关更多管道参数的信息,请参阅官方的文档

服务部署

使用LMDeploy的api_server,可以通过一行命令轻松将模型打包成服务。它提供的RESTful API与OpenAI的接口兼容。以下是服务启动的示例:

lmdeploy serve api_server OpenGVLab/InternVL2-2B-AWQ --backend turbomind --server-port 23333 --model-format awq

为了使用OpenAI样式的接口,需要安装OpenAI库:

pip install openai

然后,通过以下代码进行API调用:

from openai import OpenAI client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:23333/v1') model_name = client.models.list().data[0].id response = client.chat.completions.create( model=model_name, messages=[{ 'role': 'user', 'content': [{ 'type': 'text', 'text': 'describe this image', }, { 'type': 'image_url', 'image_url': { 'url': 'https://modelscope.oss-cn-beijing.aliyuncs.com/resource/tiger.jpeg', }, }], }], temperature=0.8, top_p=0.8) print(response)

许可和引用

该项目根据MIT许可协议开放,而InternLM2则根据Apache-2.0许可协议开放。如果您在研究中发现该项目有用,请考虑引用相关论文:

@article{chen2023internvl, title={InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks}, author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and Li, Bin and Luo, Ping and Lu, Tong and Qiao, Yu and Dai, Jifeng}, journal={arXiv preprint arXiv:2312.14238}, year={2023} } @article{chen2024far, title={How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites}, author={Chen, Zhe and Wang, Weiyun and Tian, Hao and Ye, Shenglong and Gao, Zhangwei and Cui, Erfei and Tong, Wenwen and Hu, Kongzhi and Luo, Jiapeng and Ma, Zheng and others}, journal={arXiv preprint arXiv:2404.16821}, year={2024} }

总之,InternVL2-2B-AWQ项目在视觉基础模型的扩展和通用视觉语言任务的对齐上做出了显著进展,为研究和商业应用提供了强有力的支持。

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多