OCR_DataSet

综合OCR数据集资源库及工具集

OCR_DataSet项目整合了13个知名的多语言OCR数据集，涵盖ICDAR2015、MLT2019和COCO-Text_v2等。项目特色包括数据格式统一化、便捷的百度网盘下载、详尽的数据集信息表和简化的读取脚本。此外，项目还提供了数据生成工具链接，为OCR领域的研究和开发工作提供了全面的资源支持。

文字识别数据集图像标注深度学习计算机视觉Github开源项目

访问官网

GitHub

论文

文档

待办事项

下载

下载数据集后，请记得将标注文件中对应的路径修改为您自己的路径

通过百度网盘分享的文件：所有数据集一起压缩... 链接：https://pan.baidu.com/s/1TkTWql2XxqPLDnFmVvHsUA?pwd=4358 提取码：4358 复制这段内容后打开"百度网盘APP"即可获取

数据集

数据集	主页	适用情况	数据情况	标注形式	说明
ICDAR2015	https://rrc.cvc.uab.es/?ch=4	检测&识别	语言：英文训练集：1,000 测试集：500	x1, y1, x2, y2, x3, y3, x4, y4, 文本	坐标：x1, y1, x2, y2, x3, y3, x4, y4 文本：框内的文字信息
MLT2019	https://rrc.cvc.uab.es/?ch=15	检测&识别	语言：混合训练集：10,000 测试集：10,000	x1,y1,x2,y2,x3,y3,x4,y4,语言,文本	坐标：x1, y1, x2, y2, x3, y3, x4, y4 语言：文字所属语言文本：框内的文字信息
COCO-Text_v2	https://bgshih.github.io/cocotext/	检测&识别	语言：混合训练集：43,686 验证集：10,000 测试集：10,000	json
ReCTS	https://rrc.cvc.uab.es/?ch=12&com=introduction	检测&识别	语言：混合训练集：20,000 测试集：5,000	{ "chars": [ {"points": [x1,y1,x2,y2,x3,y3,x4,y4], "transcription": "文本1", "ignore":0 }, {"points": [x1,y1,x2,y2,x3,y3,x4,y4], "transcription": "文本2", "ignore":0 }], "lines": [ {"points": [x1,y1,x2,y2,x3,y3,x4,y4], "transcription": "文本3", "ignore":0 }], }	points：x1,y1,x2,y2,x3,y3,x4,y4 chars：字符级别的标注 lines：行级别的标注 transcription：框内的文字信息 ignore：0：不忽略，1：忽略
SROIE	https://rrc.cvc.uab.es/?ch=13	检测&识别	语言：英文训练集：699 测试集：400	x1, y1, x2, y2, x3, y3, x4, y4, 文本	坐标：x1, y1, x2, y2, x3, y3, x4, y4 文本：框内的文字信息
ArT（已包含Total-Text和SCUT-CTW1500）	https://rrc.cvc.uab.es/?ch=14	检测&识别	语言：混合训练集：5,603 测试集：4,563	{ "gt_1": [ {"points": [[x1, y1], [x2, y2], …, [xn, yn]], "transcription": "文本1", "language": "拉丁文", "illegibility": false }, {"points": [[x1, y1], [x2, y2], …, [xn, yn]], "transcription": "文本2", "language": "中文", "illegibility": false }], }	points：x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription：框内的文字信息 language：语言信息 illegibility：是否模糊
LSVT	https://rrc.cvc.uab.es/?ch=16	检测&识别	语言：混合全标注训练集：30,000 测试集：20,000 仅标注文本 400,000	{ "gt_1": [ {"points": [[x1, y1], [x2, y2], …, [xn, yn]], "transcription": "文本1", "illegibility": false }, {"points": [[x1, y1], [x2, y2], …, [xn, yn]], "transcription": "文本2", "illegibility": false }], }	points：x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription：框内的文字信息 illegibility：是否模糊
Synth800k	http://www.robots.ox.ac.uk/~vgg/data/scenetext/	检测&识别	语言：英文 800,000	imnames: wordBB: charBB: txt:	imnames：文件名称 wordBB：24n，每张图像内的文本框 charBB：24n，每张图像内的字符框 txt：每张图形内的字符串
icdar2017rctw	https://blog.csdn.net/wl1710582732/article/details/89761818	检测&识别	语言：混合训练集：8,034 测试集：4,229	x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,转录文本	坐标：x1, y1, x2, y2, x3, y3, x4, y4 转录文本：框内的文字信息
MTWI 2018	识别：https://tianchi.aliyun.com/competition/entrance/231684/introduction 检测：https://tianchi.aliyun.com/competition/entrance/231685/introduction	检测&识别	语言：混合训练集：10,000 测试集：10,000	x1, y1, x2, y2, x3, y3, x4, y4, 转录文本	坐标：x1, y1, x2, y2, x3, y3, x4, y4 转录文本：框内的文字信息
百度中文场景文字识别	https://aistudio.baidu.com/aistudio/competition/detail/20	识别	语言：混合训练集：未统计测试集：未统计	h,w,name,value	h：图片高度 w：图片宽度 name：图片名 value：图片上文字
mjsynth	http://www.robots.ox.ac.uk/~vgg/data/text/	识别	语言：英文 9,000,000	-	-
Synthetic Chinese String Dataset（360万中文数据集）	链接：https://pan.baidu.com/s/1jefn4Jh4jHjQdiWoanjKpQ 提取码：spyi	识别	语言：混合 300k	-	-
英文识别数据大礼包（https://github.com/clovaai/deep-text-recognition-benchmark）训练：MJSynth和SynthText 验证：IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE	链接：https://pan.baidu.com/s/1KSNLv4EY3zFWHpBYlpFCBQ 提取码：rryk	识别	语言：英文	-	-

数据生成工具

https://github.com/TianzhongSong/awesome-SynthText

数据集读取脚本

编辑推荐精选

小云雀

字节旗下AI内容创作Agent

小云雀是字节跳动旗下剪映团队推出的AI内容创作Agent，主打”一句话打造一个爆款”的零门槛创作体验。用户只需输入一句指令，可自动生成15-60秒短视频、数字人口播视频、风格化海报等内容，支持200+可商用数字人形象和19种语言及方言。小云雀核心功能包括智能成片、AI设计、照片会说话、爆款复刻等，已接入豆包大模型、DeepSeek Chat及自研Seedance 2.0视频生成模型、Seedream 5.0图像生成模型。目前支持安卓APP和网页版，每日登录可领取120积分。适合自媒体创作者、电商营销人员、教育工作者及普通用户使用，近期因用户量激增，视频生成排队时长可达8小时。

豆包

字节跳动旗下 AI 智能助手

Pixmax

一站式AI短剧创作平台

Pixmax专注打造下一代“ AI 视觉创作引擎”，整合行业顶尖 AI 大模型、工工业级精准控制及企业级协同管理功能，是全方位的 AI 内容创作平台。

GPT Plus｜Pro充值

GPT充值

支持 ChatGPT Plus / Pro 充值服务，支付便捷，自动发货，售后可查。

GPT Image 2中文站

AI 图片生成平台

GPT Image 2 是面向用户的 AI 图片生成平台，支持文生图、图生图及多模型创意工作流。

Vecbase

你的AI Agent团队

Vecbase 是专为 AI 团队打造的智能工作空间，将数据管理、模型协作与知识沉淀整合于一处。算法、产品与业务在同一平台无缝协同，让从数据到 AI 应用的落地更快一步。

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区，致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具，独创GETI法则帮助用户精准定义音乐风格，AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化，支持国风融合、C-pop等本土音乐标签，让技术更好地承载人文表达。

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体，适配 macOS14+/Windows10+，以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务，自主拆解执行复杂工作流，数据本地运行零上传，技能市场可无限扩展，是高效的 Agentic 生产力办公助手。

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没，开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记，检测 AI 内容并下载资料，将您的学习效率提升 10 倍。

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布，深度重构AI短剧全流程生产模式，整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能，独创无限画布、双轨并行工业化工作流与Ani智能体助手，集成多款主流AI大模型，破解素材零散、版本混乱、沟通低效等行业痛点，助力3人团队效率提升800%，打造标准化、可追溯的AI短剧量产体系，是AI短剧团队协同创作、提升制作效率的核心工具。

下拉加载更多