EDN首页   博客首页

日志档案

发表于 2008-6-13 17:06:44

2

标签: OCR  汉王  扫描  电子版  

OCR是用心得

这学期邓论换新教材了,我就懒得去买了,所以就扫描了本,然后用汉王(5.0)转换成电子版的。用的时候发现还有不少问题有待改善,所以只能一张张校验。

校验下来发现问题主要集中在几个问题上:
1)左右边旁的字,容易拆分成两个字,这里应该考虑加个算法,字数最少最优;
2)句号总是识别不清,标点里主要就是句号有问题,这个怎么改善还没思路;
3)一划的字不能有效识别,像“一”经常被识别成两个一,如果是打印体,可以考虑一下字的全局比例,这样应该可以解决了;
4)字库少当然可以通过升级来改善,不过更多的问题我发现是词更多的是后向关联,前向关联的很少,这方面有待加强;
5)最后就是汉王只对黑体和宋体识别率比较高,对于楷体和手写体识别率就低不少,这个就有点不知道为什么了,貌似手写板的识别率不是蛮高的吗,不过好像是通过记忆书写习惯来提高的,对于纸面的识别好像没有用这个方法,不过纸面扫描用记忆也有点困难。具体怎么改善,还要仔细考虑一下。

以上仅是抛砖引玉,希望对正从事OCR研究的朋友有所帮助

系统分类: 软件开发   |   用户分类: 无分类   |   来源: 原创   |   【推荐给朋友】   |   【添加到收藏夹】

    阅读(424)    回复(0)  

投一票您将和博主都有获奖机会!