Surya是一个文档OCR工具包,具有以下功能:
检测 | OCR |
---|---|
![]() | ![]() |
布局 | 阅读顺序 |
---|---|
![]() | ![]() |
Surya以印度太阳神命名,象征全视之能。
我们在Discord讨论未来发展。
名称 | 检测 | OCR | 布局 | 顺序 |
---|---|---|---|---|
日语 | 图片 | 图片 | 图片 | 图片 |
中文 | 图片 | 图片 | 图片 | 图片 |
印地语 | 图片 | 图片 | 图片 | 图片 |
阿拉伯语 | 图片 | 图片 | 图片 | 图片 |
中文+印地语 | 图片 | 图片 | 图片 | 图片 |
演示文稿 | 图片 | 图片 | 图片 | 图片 |
科学论文 | 图 片 | 图片 | 图片 | 图片 |
扫描文档 | 图片 | 图片 | 图片 | 图片 |
纽约时报 | 图片 | 图片 | 图片 | 图片 |
扫描表格 | 图片 | 图片 | 图片 | 图片 |
教科书 | 图片 | 图片 | 图片 | 图片 |
所有Surya模型的托管API可在这里获取:
我希望Surya能 尽可能广泛地使用,同时仍能支付我的开发和训练成本。研究和个人使用始终是允许的,但商业使用有一些限制。
模型权重采用cc-by-nc-sa-4.0
许可,但对于最近12个月总收入不超过500万美元且累计风险投资/天使投资不超过500万美元的组织,我将豁免此限制。此外,您不得与Datalab API存在竞争关系。如果您想解除GPL许可要求(双重许可)和/或在超过收入限制的情况下商业使用权重,请查看这里的选项。
您需要Python 3.9+和PyTorch。如果您不使用Mac或GPU机器,可能需要先安装CPU版本的torch。详情请参见此处。
通过以下命令安装:
pip install surya-ocr
首次运行Surya时,模型权重将自动下载。