BetterOCR是一个强大的OCR(光学字符识别)工具,它通过结合多个OCR引擎和大语言模型(LLM)来提高文本识别的准确性。无论您是初学者还是OCR技术专家,本文都将为您提供丰富的BetterOCR学习资源,帮助您快速掌握这个创新的文本识别解决方案。
BetterOCR的核心理念是结合多个OCR引擎的优势,并利用大语言模型来纠正和重构输出结果。它目前支持以下OCR引擎:
通过整合这些引擎的结果,BetterOCR可以显著提高文本识别的准确性,特别是对于训练数据较少的语言。
要开始使用BetterOCR,您可以通过pip安装:
pip install betterocr
安装完成后,您可以使用以下代码进行简单的文本检测:
import betterocr text = betterocr.detect_text( "demo.png", ["ko", "en"], # 语言代码 context="", # 可选上下文 tesseract={ "config": "--tessdata-dir ./tessdata" }, openai={ "API_KEY": "sk-xxxxxxx", "model": "gpt-3.5-turbo", }, ) print(text)
BetterOCR还提供了框检测功能,可以识别图像中的文本区域并返回其位置信息:
import betterocr image_path = ".github/images/demo-1.png" items = betterocr.detect_boxes( image_path, ["ko", "en"], context="퍼멘테이션 펩타인 아이케어 크림", # 产品名称作为上下文 tesseract={ "config": "--psm 6 --tessdata-dir ./tessdata -c tessedit_create_boxfile=1" }, ) print(items)