OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。
软件内容说明
TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。
本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——文通的TH-OCR9.0进行录入识别,它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。
TH-OCR的突出特点
◇ 汉英双语同时混排,识别率最高,居世界领先水平。
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能,所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。
TH-OCR的六大优势
1. 是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。
2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。
3. 汉字识别率最高。文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的最高水平。
4. 支持多种环境接口。文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。
5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。
广泛的社会认可
1、 多年来为众多著名的扫描仪厂商HP、UNISCAN、EPSON、CANON、 LENOVO等提供TH-OCR普及版作为其扫描仪的捆绑软件。
2、美国MICROSOFT公司将TH-OCR作为东方文字识别捆绑到WINXP 操作系统中。
3、美国MOTOROLA公司确定TH-OCR的部分技术使用权。
4、美国INTEL公司确定TH-OCR为最新的MMX技术支持项目。
5、《计算机世界》市场调查结果,文通TH-OCR市场占有率达65%以上。
6、《中国计算机报》 CIWLAB组织的用户调查认为, TH-OCR是一个性能极好的系统,是一个值得用户信赖的系统(对其他品牌OCR评价为:“是值得用户选择的产品”)。
∨ 展开