回复:PDF能转成doc文件吗?
转一个贴。
虚拟打印机可以实现,
认识虚拟打印机
安装完Office 2003之后,你会发现“打印对话框”中多了一个打印机列表,这就是一台虚拟打印机。如果没有安装,请运行Office 2003的安装程序,利用其“添加或删除功能”中的“高级自定义”将组件Microsoft Office Document Imaging Writer安装到系统中即可。
如果选中此项来打印,就会得到一个扩展名为MDI的文件。它有以下的应用。
1. 通过Microsoft Office Document Image Writer将Word、Excel、PowerPoint、Internet Explorer等浏览器中的各种可以打印输出文件,打印输出为MDI格式,用于存档。
2. Office 2003中除了提供虚拟打印功能,还提供了编程接口。可以很方便地从MDI文件中提取其中包含的文本,图片等内容,通过相应的索引模块,可以方便地为不同格式文档建立索引。
3. Office 2003还提供了可以查看MDI文件内容的ActiveX控件,我们可以把该控件放置到Windows Forms中,用于查看MDI文件的内容。这样,一个通用性很高的文档管理系统就创建出来了。
利用虚拟打印机提取加密pdf文档中的文字
运行Acrobat Reader,打开要提取文字的pdf文档,单击菜单“文件→打印”,在出现的“打印”窗口中,打印机名称一定要选择“Microsoft Office Document Imaging Writer”,单击后面的“属性”按钮,可以设置页面大小、输出文件格式(包括mdi和tiff两种格式,默认为msi)及默认保存位置。设置好“打印 ”窗口中的其他相关参数后,单击“确定”按钮,出现“另存为”窗口,在此即可把页面“打印”成一个mdi文件,同时系统会自动启动“Microsoft Office Document Imaging”并显示出刚刚保存的mdi文件。
在Microsoft Office Document Imaging的窗口中,单击菜单“工具→将文本发送到Word”,在弹出的窗口中单击“确定”,系统会自动对整个页面进行OCR识别,识别完毕之后,会自动启动Word,并把识别出来的文字显示在Word文档中,识别效果非常不错。如果只需要页面中的部分文字,可单击标准工具栏中的“使用OCR识别文本 ”,先进行文字识别,然后用鼠标框选出需要的部分,再执行“将文本发送到Word”,选中“当前选中范围”即可。
在Word中适当对文字及格式进行修改,即可将其保存成doc文档。到此pdf文档中的文字已经提取到了Word中了。
提示:如果上面“打印”成的格式是tif,则需要手动从“开始”菜单“Microsoft Office 工具”中启动Microsoft Office Document Imaging,然后再“打开”tif文件,同样可以把文字识别到Word中。