标签:
OCR 汉王 扫描 电子版
这学期邓论换新教材了,我就懒得去买了,所以就扫描了本,然后用汉王(5.0)转换成电子版的。用的时候发现还有不少问题有待改善,所以只能一张张校验。
校验下来发现问题主要集中在几个问题上:
1)左右边旁的字,容易拆分成两个字,这里应该考虑加个算法,字数最少最优;
2)句号总是识别不清,标点里主要就是句号有问题,这个怎么改善还没思路;
3)一划的字不能有效识别,像“一”经常被识别成两个一,如果是打印体,可以考虑一下字的全局比例,这样应该可以解决了;
4)字库少当然可以通过升级来改善,不过更多的问题我发现是词更多的是后向关联,前向关联的很少,这方面有待加强;
5)最后就是汉王只对黑体和宋体识别率比较高,对于楷体和手写体识别率就低不少,这个就有点不知道为什么了,貌似手写板的识别率不是蛮高的吗,不过好像是通过记忆书写习惯来提高的,对于纸面的识别好像没有用这个方法,不过纸面扫描用记忆也有点困难。具体怎么改善,还要仔细考虑一下。
以上仅是抛砖引玉,希望对正从事OCR研究的朋友有所帮助
系统分类:
软件开发 | 用户分类:
无分类 | 来源:
原创 | 【推荐给朋友】 | 【添加到收藏夹】