h2ovl-mississippi-800m

h2ovl-mississippi-800m

紧凑型视觉语言模型,提供出色的文本识别功能

H2OVL-Mississippi-800M是H2O.ai推出的一款紧凑型视觉语言模型,拥有0.8亿参数,专注于OCR文本识别,表现出色。该模型在OCRBench测试中领先,超越更大规模的模型。基于H2O-Danube的架构,Mississippi-800M扩展了视觉和文本整合能力。通过1900万图文对进行训练,尤其注重OCR、文档理解以及表格和图表的解析,优化紫为OCR任务。

OCR性能JSON提取文本识别HuggingfaceGithub开源项目模型视觉语言模型H2OVL-Mississippi-800M

h2ovl-mississippi-800m项目介绍

项目背景

H2OVL-Mississippi-800M是由H2O.ai开发的一款紧凑而强大的视觉-语言模型。该模型包含8亿参数,尽管体积较小,但在文本识别方面提供了最先进的性能,特别是在OCRBench的文本识别领域中,它的表现甚至超越了一些体积更大的模型。Mississippi-800M建立在H2O-Danube语言模型的坚实架构之上,通过无缝集成视觉和语言任务,扩展了其能力。

关键特性

  • 8亿参数:在性能和效率之间取得平衡,适合用于光学字符识别(OCR)和文档处理。
  • 训练数据:模型在1900万对图像-文本组合数据上进行训练,重点关注OCR、文档理解以及图表、图形和表格的解读,从而优化其OCR性能。

使用方法

安装依赖

要使用该模型,需要安装以下Python依赖库:

pip install transformers torch torchvision einops timm peft sentencepiece flash_attn

示例演示

下面是一些示例代码,展示了如何设置模型并进行简单的文本对话和图像文本读取:

import torch from transformers import AutoConfig, AutoModel, AutoTokenizer model_path = 'h2oai/h2ovl-mississippi-800m' config = AutoConfig.from_pretrained(model_path, trust_remote_code=True) config.llm_config._attn_implementation = 'flash_attention_2' model = AutoModel.from_pretrained( model_path, torch_dtype=torch.bfloat16, config=config, low_cpu_mem_usage=True, trust_remote_code=True).eval().cuda() tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True, use_fast=False) generation_config = dict(max_new_tokens=2048, do_sample=True) # 文字对话 question = 'Hello, how are you?' response, history = model.chat(tokenizer, None, question, generation_config, history=None, return_history=True) print(f'User: {question}\nAssistant: {response}') # 图像文本读取 image_file = './examples/image.jpg' question = '<image>\nRead the text in the image.' response, history = model.chat(tokenizer, image_file, question, generation_config, history=None, return_history=True) print(f'User: {question}\nAssistant: {response}')

性能基准

H2OVL-Mississippi-800M已在多项基准测试中验证,其具有卓越表现,尤其是在OCRBench中表现突出。

JSON提取提示工程

项目还提供了一份指南,展示了如何创建提示以提取信息并将其转换为JSON格式。指南提供了从简单信息到复杂JSON结构提取的样例,以及处理表格和图表图像数据的方法。

示例:从图像提取简单信息

假设您有一张表单图像,其中包含“姓名”、“出生日期”和“地址”。

提示:

从表单图像中提取信息并将其结构化为JSON格式:
{
    "name": "",
    "date_of_birth": "",
    "address": ""
}

预期输出:

{ "name": "John Doe", "date_of_birth": "1990-01-01", "address": "1234 Elm Street, Springfield" }

最佳实践

  1. 明确意图:提示中明确定义所需的键和结构以避免歧义。
  2. 使用示例:提供样本输出以帮助系统理解预期格式。
  3. 考虑变化:考虑视觉数据可能的变化,确保提示可以适应这些变化。
  4. 从简单开始:从简单结构开始,逐渐增加复杂性。
  5. 测试和迭代:通过测试细化您的提示以确保输出的准确性和一致性。

致谢

感谢InternVL团队、LLaVA团队和Monkey团队的研究和技术贡献,他们的工作为改进多模态模型提供了重要帮助。

免责声明

使用该模型需注意可能存在偏见或冒犯内容的风险,用户需自行评估生成的内容,并通过合适渠道反馈,以便改进模型。模型使用者需对因使用者的使用或误用而导致的后果承担全部责任。

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具使用教程AI营销产品酷表ChatExcelAI智能客服
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

数据安全AI助手热门AI工具AI辅助写作AI论文工具论文写作智能生成大纲
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

热门AI工具AI办公办公工具智能排版AI生成PPT博思AIPPT海量精品模板AI创作
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多