OCR 缩放规律的实证研究

近年来，多模态大模型在学术界和产业界受到广泛关注，其视觉语言交互能力表现突出。然而，在光学字符识别（OCR）领域，即从图像中提取文本信息的能力方面，多模态大模型的表现相对较弱。随着技术的不断进步，这个问题已通过大型OCR模型的先进性能得到显著改善。OCR大模型在识别准确性和鲁棒性方面表现更佳。如今，OCR大模型已成为多模态大模型在OCR领域的重要工具，为相关应用的发展提供了强有力的支持。我们在多模态大模型（LMM）研究扩展的框架内，将OCR模型引入Qwen-VL-Chat，并在四个VQA任务上进行了广泛评估。研究结果展示了OCR在处理复杂视觉语言交互任务中的有效性，OCR在增强多模态大模型文本识别能力方面的重要性，以及LMM在VQA任务上准确率的显著提升。

📸 VQA可视化效果

在STVQA和TextVQA任务的视觉分析中，我们发现Qwen-VL_Chat大模型在捕捉小文本或正确识别文本内容方面存在一定挑战。然而，当引入OCR技术后，大模型能够更准确地理解图像中的文本内容，例如在STVQA任务中更有效地识别小文本。在TextVQA任务中正确将"Hongte"改为"Honghe"，将"57"改为"22"。
<img src="https://yellow-cdn.veclightyear.com/835a84d5/0b266289-742a-480c-bd74-7295e0effd28.png">
在DocVQA任务中，当模型处理具有丰富文本信息的常见文档场景时，我们发现大模型在识别和处理大量文本信息方面表现不佳。例如，当被问及图像中的广告标志时，模型可能无法准确找到目标或给出不存在的词。引入OCR后，模型能够更准确地识别图像中的文本，提高了处理丰富文本信息时的准确性。
<img src="https://yellow-cdn.veclightyear.com/835a84d5/eebbe91f-ab85-4226-8fe3-73ad7b3e3f52.png">

🦙 大型OCR模型的构建

在自然语言处理（NLP）领域，模型规模、数据量、计算能力与模型性能之间的关系已被广泛研究。然而，在光学字符识别（OCR）领域，对这些"缩放规律"的探索仍处于起步阶段。为填补这一空白，我们进行了全面的研究和深入分析，探讨了模型规模、数据量和计算能力与OCR性能之间的关系。结果揭示，在其他影响因素不变的情况下，性能与模型规模和训练数据量之间存在平滑的指数关系。此外，我们还创建了一个大规模数据集REBU-Syn，包含600万个真实样本和1800万个合成样本。利用这些规律和数据集，我们成功训练了一个高精度OCR模型，并在OCR测试基准上达到了SOTA准确率。特别是，我们发现OCR模型能显著增强多模态大模型的能力，在多个VQA任务上实现显著的准确率提升，证明了OCR在提高多模态大模型性能方面的巨大潜力。