如何复制不可复制的文献内容

把这个简单的方法写出来，是因为总是有人需要的。

日常的学习中常常需要复制一些已有参考资料的部分内容，但是往往有些文件由于制作过程的原因，并不能提供与我们直接复制的功能，因此为了提高工作效率，我们不能不转而求助于某些工具以避免太多敲键盘的繁琐劳动。常见的此类文件有，部分PDF文件，PDG，甚至图像文件等。

原理：将现有文件转化为TIFF格式的图像文件后借助于OCR软件加以识别，以达到可自由Copy的目的。

准备工作：
1. 阅读软件，比如PDF的AcroBat Reader，VIP的维普浏览器，PDG的超星浏览器等
2. 抓图软件，推荐用SPXInstantScreenCapture，当然如果实在没有的话，用自带的PrintScreen也可
3. 简单的图像察看编辑软件，推荐ACDSee。
4. OCR识别软件，推荐Office 2003自带的MicroSoft Office Document Imaging，当然清华TH-OCR 2000千禧专业版也不错。不过前者中英文识别都不错，而后者只能识别中文。

操作步骤：
1. 获取所需转化内容的TIFF文件。
　　1.1 如果您要转化不可复制的PDF文件中的文字内容，你可以在Acrobat Reader的Save as中找到保存为TIFF文件的选项。
　　1.2 如果是其他类型文件，则在可用SPX直接抓取相关区域的内容，得到图像文件，比如JPG等，再借助ACDSee等工具另存为TIFF文件。如果没有SPX而是直接的PrintScreen，则在后期借助ACDSee裁剪和另存为得到TIFF文件。
　　注意点：所得到的TIFF文件图像要尽量清晰，其中每个字要稍微大一些，3号字体的大小就可以了，这样能够有效提高OCR软件的识别正确率。

2. 将得到的TIFF文件OCR为文本文件
　　我们借助于OCR软件，比如上面提到的MicroSoft Office Document Imaging及清华OCR千禧版，就可以从TIFF中得到相应的文本文件，然后简单的复制，粘贴即可。
　　用MicroSoft Office Document Imaging时注意在选项中设置一下首选语言为英文还是中文。目前我只知道Office 2003提高了此程序的安装，至于其他版本的Office还不曾核实，有兴趣的朋友可以去找找看。
　　注意点：如果所要转化的内容为英文，则清华OCR千禧版是无能为力的（很久没有用过这软件，不知它的最新版本中是否有所改进）；

3. 核查
　　人工核查OCR后得到的文本粗稿，保存之。

几点说明：
1. 上面所提到的软件请自行Google
2. 所转化得到的文本内容版权仍归原所有人所有
3. 再见，二月。

6 thoughts on “如何复制不可复制的文献内容”

aqiuaqiu 2006 年 03 月 01 日

我靠，公司刚刚推出文档阅览器，防止人ctrl-a,ctrl-c，你就告诉我这么好的办法啦，啦啦啦啦啦啦啦拉………

Reply ↓
aqiuaqiu 2006 年 03 月 01 日

靠,公司it部太厉害了，文档禁用左右键，printscreen抓不到word文档里的文字，只有一个word的框架，还是搞不定，pf那些人啊，it部的工资没白发，不是那么轻易破解的，呵呵

Reply ↓
dodo 2006 年 03 月 01 日

想好好看看.

对我来说,有都记住有点困难

Reply ↓
Pal Post author2006 年 03 月 01 日

牛！实在不行你也只能DC抓图了，哈哈哈哈。

Reply ↓
shana 2006 年 03 月 03 日

so 复杂~~~~~~~~~~~~~~~~~~~~~~

要用时再看这篇吧

Reply ↓
Annya 2006 年 03 月 04 日

很好很好，谢谢pal，我还真的不知道原来office自带了OCR呢，赶紧利用起来！

Reply ↓

6 thoughts on “如何复制不可复制的文献内容”

发表回复 取消回复

发表回复取消回复