KDHNH文件转Word方法,OCR识别转换技巧
处理学术资料时,经常遇到CAJ、KDH、NH格式的文件,可编辑和分享这些格式的文件却很麻烦?别担心!这里有一套完整的方法,教你如何将这些格式的文件转换成Word,让编辑和使用变得轻松简单!
准备工作
首先,我们需要准备以下软件工具:
1. CAJViewer 7完整版(必须包含OCR组件)
2. PDF虚拟打印机(本文以PDF factory为例)
3. OCR识别软件(本文以ABBYY finereader 9为例)
使用CAJViewer的OCR功能转换部分内容
1. 用CAJViewer 7打开你需要转换的文件,界面如下:
2. 如果你只需要转换文档中的部分内容,可以点击CAJViewer 7自带的OCR功能按钮(如图中红色方框所示)。注意:如果你使用的是精简版的CAJViewer,这个按钮可能是灰色不可用的。
3. 点击OCR按钮后,鼠标会变成十字形。用它在页面上框选出你需要识别的内容,稍等片刻,就会弹出一个识别文字的对话框。你可以选择将识别的内容复制到剪贴板,或者直接发送到Word中。识别完成后关闭对话框即可。需要注意的是,OCR识别存在一定的错误率,识别后你需要进行人工校对。
4. 如果你只需要摘录文档中的一小部分内容,上述方法就足够了。但如果你想将整篇文章都转换成可编辑的Word格式,请继续阅读下面的内容。
通过PDF转换整篇文档
1. 首先,我们将CAJ、KDH、NH文件转换成PDF格式,再将PDF转换成Word格式。推荐使用PDF虚拟打印机,本文以PDF factory为例。需要注意的是,PDF Creator或者Foxit系列软件的PDF虚拟打印机可能与CAJViewer有冲突,转换出来的PDF文件可能只有上半部分页面,下半部分是空白的,因此不推荐使用。
2. 在CAJViewer软件菜单中选择"文件"→"打印",弹出打印界面,按照下图进行设置。如果你使用的是其他PDF虚拟打印机,选择相应的打印机即可,其他设置基本保持默认,然后点击"确定",等待转换完成后保存为PDF文件。
3. 接下来,我们使用ABBYY FineReader这款强大的PDF转换软件,将转换好的PDF文件进行OCR识别并转换成Word格式。因为从CAJViewer转换过来的PDF文件是图片形式的PDF,所以必须使用带有OCR功能的转换软件,其他普通的PDF转Word软件对此无能为力,请务必记住这一点。
4. 运行ABBYY FineReader软件,设置好要识别文件的语言种类(可以选择多种语言)。如果你不想每次打开软件都显示这个设置窗口,可以勾选"不再显示此窗口"选项。然后打开刚才保存的PDF文件,软件会自动进行OCR识别,识别过程如下图所示:
5. 在识别过程中,如果有无法识别的部分或者出现错误,软件会给出警告提示。识别完成后,在软件菜单中选择"文件"→"另存为"→"Microsoft Word文档",然后保存即可,如下图所示:
6. 保存后的Word文件打开效果如下:
7. 转换效果基本令人满意,版面还原能力也不错。最后,你只需要将转换后的内容与原文进行核对即可,大功告成!
注意事项
1. 文件的最终转换效果与你使用的PDF虚拟打印机的转换效果直接相关。转换成的PDF文件清晰度越高,最终OCR识别的准确率也越高。
2. 如果你的文件中包含大量的数学公式、物理公式、三角函数或各种计算式,目前这些内容还不能被准确识别,需要你使用公式编辑器手动输入,这也是目前转换技术的一个遗憾。
大家在转换过程中遇到什么问题,或者有其他更好的转换方法,欢迎留言分享讨论!