CAJ是英文chinajounal的缩写,中文名为中国学术期刊,CAJ文件是中国学术期刊(光盘版)电子杂志社(CAJEJPH)的产品。它是为了中国期刊网的全文检索浏览全文而开发的。优缺点还是主要看支持打开CAJ格式的软件了,软件发展的越好,CAJ就会越有前途。以下是CAJ全文浏览器的介绍CAJ全文浏览器是中国期刊网的专用全文格式阅读器,它支持中国期刊网的CAJ、NH、KDH和PDF格式文件。它可以在线阅读中国期刊网的原文,也可以阅读下载到本地硬盘的中国期刊网全文。它的打印效果可以达到与原版显示一致的程度。CAJ全文浏览器可支持Windows'98/Me/NT/2000,包括这些操作系统的简、繁、英文版。用户在期刊网检索到自己满意的文章之后,有两种方式可以阅读全文,一种是在当前在线打开,另一种是将原文下载到本地硬盘后待以后再阅读。在线阅读全文时也可以使用全文浏览器的保存功能将原文保存到本地硬盘。 用户如果要打印原文,只要安装了打印机,在以上两种方式下均可打印出与原版一致的原文。点击[文件]菜单上的打印或工具条上的打印图标即可。如果用户要引用或保存原文中的文字、公式、图表或图片,可以使用全文浏览器的文字或图片的复制功能,将原文中的文字、公式、图表或图片等复制下来,粘贴到其他文字处理(如Microsoft Word)或图片处理程序(如 Photoshop)进行编辑、处理、保存或引用。 对于可复制文字格式的原文,可以使用复制文字功能复制想要的文字段落; 对于不能复制文字格式的原文,可以使用复制图象的功能将要复制的文字段落复制成图象; 对于公式、图表和图片,使用复制图象的功能将要复制的文字段落复制成图象。
网上提供了许多处理这种情况的软件,但是它们不是效率低,就是只能提取其中部分文本。本文所述利用微软提供的OCR识别技术从CAJ、PDF等文件中提取全部文本的方法,简便快捷,效率很高。
从不同格式的文件中提取文本前需要做好以下准备工作,安装CAJViewer7.0浏览器软件和acrobat 专业版浏览器软件安装Office2003,并完全安装Microsoft Office Document Imaging,然后在打印机里面会增加Microsoft Office Document Image Writer打印机。 Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格。
CAJ文件的识别
(一)首先,从网上下载CAJ格式的资料文件保存到本地硬盘上。
(二)然后,启动CAJViewer浏览器程序,并在该程序中打开刚才保存的CAJ格式的文件。浏览文件到最后一页后,不要关闭CAJ浏览器程序。
(三)在CAJ浏览器程序窗口中,选择“文件”→“打印”,并选择打印机为Microsoft Office Document Image Writer打印机,勾选打印到文件选项和确定打印页数。
(四)保存打印文件(*.prn)到适当位置。等待打印完成后,Microsoft Office Document Image 自动打开刚才保存的打印文件。
(五)在Microsoft Office Document Image窗口中,选择“页面”菜单中的“选择所有页面”菜单项,然后选择“工具”菜单中的“使用OCR识别文本”提取文本。
(六)选择“工具”下的 “将文本发送到word”,最后将把整个CAJ文件识别输出到word文件中。