【Task 1】初识OCR:一些基础理论与论文学习

作为一名文科生兼OCR小白,在看到大佬们的教程时我是惶恐的。最初报名这门课程也初初始于兴趣与好奇,全然未料及大家的学习进度会如此神速。由于软硬件的问题,我至今没能成功完成baseline测试,因此我将在此贴中先行记录一些与本专业和OCR相关的论文阅读心得。

徐建文《基于OCR技术的涉密文档监控系统设计与实现》
网络高度发达的信息化时代,机密文件的安全保护与监控是一项非常值得重视的任务,尤其对政府、军队和其他重要单位。数字信息高速发展的今天,绝大部分文件都以电子文档的形式存在,但目前关于电子文档的安全监控系统大部分是针对计算机可以直接识别的计算机文字而设计,而对图像形式的电子文档的监控暂时还没有很好的系统对其处理,因此开发一个能对图形电子文档进行监控的系统以防止信息以图形化形式泄露,具有重要意义。该项目将OCR应用技术与机器学习相结合来共同完成对机密文档的监控,利用OCR技术设计并实现一个涉密文档监控系统,用OCR技术识别图像文档,将图像文档转换为计算文字后,再利用机器学习里的一些方法将文件进行识别,判断文件是否带有机密性。

刘明英《档案数字化过程中OCR技术的应用分析》
提高档案数字化过程中OCR识别率的方法:

  1. 设置合适的扫描参数(分辨率、色彩、亮度、对比度……)
  2. 图像处理
  3. 人工校对

徐永芳《OCR技术在档案数字化过程中的应用》
OCR技术在档案数字化过程中的应用方式:

  1. 利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录或直接提供文本拷贝。
  2. 输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。
  3. 档案部门扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。
  4. 建立文本数据库。这种方式也应在已有文件目录的条件下使用。