如何复制不可复制的文献内容

By | 2006 年 02 月 28 日

把这个简单的方法写出来,是因为总是有人需要的。

日常的学习中常常需要复制一些已有参考资料的部分内容,但是往往有些文件由于制作过程的原因,并不能提供与我们直接复制的功能,因此为了提高工作效率,我们不能不转而求助于某些工具以避免太多敲键盘的繁琐劳动。常见的此类文件有,部分PDF文件,PDG,甚至图像文件等。

原理:将现有文件转化为TIFF格式的图像文件后借助于OCR软件加以识别,以达到可自由Copy的目的。

准备工作:
1. 阅读软件,比如PDF的AcroBat Reader,VIP的维普浏览器,PDG的超星浏览器等
2. 抓图软件,推荐用SPXInstantScreenCapture,当然如果实在没有的话,用自带的PrintScreen也可
3. 简单的图像察看编辑软件,推荐ACDSee。
4. OCR识别软件,推荐Office 2003自带的MicroSoft Office Document Imaging,当然清华TH-OCR 2000千禧专业版也不错。不过前者中英文识别都不错,而后者只能识别中文。

操作步骤:
1. 获取所需转化内容的TIFF文件。
  1.1 如果您要转化不可复制的PDF文件中的文字内容,你可以在Acrobat Reader的Save as中找到保存为TIFF文件的选项。
  1.2 如果是其他类型文件,则在可用SPX直接抓取相关区域的内容,得到图像文件,比如JPG等,再借助ACDSee等工具另存为TIFF文件。如果没有SPX而是直接的PrintScreen,则在后期借助ACDSee裁剪和另存为得到TIFF文件。
  注意点:所得到的TIFF文件图像要尽量清晰,其中每个字要稍微大一些,3号字体的大小就可以了,这样能够有效提高OCR软件的识别正确率。

2. 将得到的TIFF文件OCR为文本文件
  我们借助于OCR软件,比如上面提到的MicroSoft Office Document Imaging及清华OCR千禧版,就可以从TIFF中得到相应的文本文件,然后简单的复制,粘贴即可。
  用MicroSoft Office Document Imaging时注意在选项中设置一下首选语言为英文还是中文。目前我只知道Office 2003提高了此程序的安装,至于其他版本的Office还不曾核实,有兴趣的朋友可以去找找看。
  注意点:如果所要转化的内容为英文,则清华OCR千禧版是无能为力的(很久没有用过这软件,不知它的最新版本中是否有所改进);

3. 核查
  人工核查OCR后得到的文本粗稿,保存之。

几点说明:
1. 上面所提到的软件请自行Google
2. 所转化得到的文本内容版权仍归原所有人所有
3. 再见,二月。

6 thoughts on “如何复制不可复制的文献内容

  1. aqiuaqiu

    我靠,公司刚刚推出文档阅览器,防止人ctrl-a,ctrl-c,你就告诉我这么好的办法啦,啦啦啦啦啦啦啦拉………

    Reply
  2. aqiuaqiu

    靠,公司it部太厉害了,文档禁用左右键,printscreen抓不到word文档里的文字,只有一个word的框架,还是搞不定,pf那些人啊,it部的工资没白发,不是那么轻易破解的,呵呵

    Reply
  3. Annya

    很好很好,谢谢pal,我还真的不知道原来office自带了OCR呢,赶紧利用起来!

    Reply

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注