【Task 2】姚程栋《通用场景OCR文本识别》分享讲座笔记

常见数据集类型:
1.拍摄的书本内容
难度:简单
拍摄角度合适,清晰,字体友好,行间距合适,基本都是长文本
纸张较薄,容易造成误召回

2.拍摄的购物小票
难度:困难
光照环境多样,部分样本带有较大旋转和透视角度,存在字迹模糊、多方向文本、手写内容等情况
上分思路
(1)购物小票有较大旋转和透视角度:
多旋转几个方向测试(TTS)
用霍夫变换、透视变换摆正
(2)购物小票存在字迹模糊的样本:
进行锐化和对比度增强类处理
训练时加随机模糊提高鲁棒性

3.淘宝店铺广告图
难度:中等
基本不存在因拍摄导致的光照,透视和旋转等问题
字体样式较多,多为艺术字,存在部分弯曲和竖排文本
上分思路
(1)店铺广告有较多样式的艺术字体:
切出来finetune recognizer
可从图像检索任务借鉴思路
(2)店铺广告存在弯曲排版的文本:
针对性地数据增广增加样本量
尝试用TPS变换将边缘曲率归零

参赛思路
思路:从CSV文件中提取下载链接:point_right:下载图片并构建成PaddleOCR格式的训练集:point_right:对模型进行finetune​:point_right:推理得到标签并构建提交文件。

注意事项
通过pandas读取csv文件
将json对象中的url提出来
不同的测试集要分开提交
下载后会替换掉转义字符
随机划分出10%作为验证集
将答案转成PaddleOCR格式
路径的转义字符要unquote
将构建好的标签保存为txt

上分思路
调整模型超参数并重新finetune
改进检测流程(前置方向检测等)
尝试在其它模型基础上finetune
添加均衡化和透视变换等预处理
搭建更优的模型结构并从零训练
图像增广

  • 锐化、对比度
  • 直方图均衡化
  • 逐通道标准化
  • 高反差保留
  • 透视变换…