本文目录一览:
- 1、ubuntu 怎么将pdf转换成json
- 2、怎样把PDF转为TIF
- 3、Python利器:如何处理PDF表格数据
- 4、怎样可以把pdf文件转成所需软件格式
- 5、在使用pdf2swf.exe工具把pdf转换swf时,怎么在swf头部添加json数据
ubuntu 怎么将pdf转换成json
我能够想到的就是,在ubuntu下,用openoffice.org 文字处理打开,在工具栏里面就有直接将文件转换为pdf的按钮 还没有升级到ubuntu11.04,所以不知道libreoffice行不行,不过它们有99%的相似度,应该有的 就这些了。
怎样把PDF转为TIF
方法1:打开pdf文件,选择菜单命令“文件” → “另存为” ,弹出另存为对话框,选择保存类型为“jpg”,保存即可;
方法2:打开pdf文档,选择命令 “另存为其它” → “图像” → “JPEG或JPEG2000”;
方法3:打开pdf文档,选择“编辑”菜单下的“拍快照”(注:选中后,在拍快照前面会有个√显示),同时鼠标变成十字光标,此时拖动鼠标框选你要变换的区域,松开鼠标,弹出确认对话框,点击确认,此时框选的部分已经保存到剪贴板,然后打开系统自带的画图工具,粘贴后保存为jpg文档。方法不适合图片过多的情况,不建议使用!
方法4:试试在线PDF转图片共有以下几个步骤:
• 点击浏览按钮选择需要转换的PDF文件。
• 输入需要转换的页码,以逗号分割开,如果转换所有的页面可以跳过这一步。
• 点击按钮上传文件,然后等着就可以了。
• 点击下载链接把做好的文件下载到本地就可以了。仅适合低于2MB的文件转换!
方法5:借助pdf转换器。选中pdf转图片功能,然后右下角选择“上传文件或文件夹”,即可一键开始转换,此外还支持转word、excel、ppt等格式。
Python利器:如何处理PDF表格数据
大家好,我是Peter~
在很多情况下,我们都需要处理PDF格式的文件。尤其当我们遇到PDF表格数据需要进行提取,真的是一个令人头疼的问题。
因为PDF文件不能像Word那样直接复制,即使复制了再黏贴也可能会出现格式排版错乱甚至乱码问题。如何从一个PDF文件提取出表格数据?本文提供两个解决方案:
首先提供的一种方法是从文字 PDF 中提取表格信息的工具:Camelot,它能够直接将大部分表格转换为 Pandas 的 Dataframe。
更多的详细信息,请参考项目地址:
camelot的安装有多种方式。如果有报错,网上一般有解决方式:
1、通过conda安装
2、使用pip进行安装
3、通过GitHub进行安装
首先将项目复制到本地:
然后进入文件中进行安装:
下面通过一个案例来讲解如何使用camelot。假设我们现在有一个只有一页的PDF文件test.pdf:
1、先读取文件
导出成csv格式的数据(方式1)
查看tables的相关信息:
导出方式2:
将数据转换成DataFrame:
tabula的功能比camelot更加强大,可以同时对多个表格数据进行提取。项目的具体地址请参考:
tabula的安装是非常简单的:
安装之后检验这个库是否安装成功:
通过tabula这个库来读取PDF文件:
然后我们发现列表中唯一的一个元素就是dataframe:
将读取到的数据输出成CSV格式的文件:
上面读取的PDF文件是比较简单的,只有一页,而且刚好是一个很标准的表格形式的数据,下面看一个比较复杂的例子:
下面是第一页,第一列可以看成是索引:
在第二页中有两份表格,而且中间有很多的空白行:
第三页的数据比较标准:
这3页是在同一个PDF文件中,这3页是在同一个PDF文件中,这3页是在同一个PDF文件中
上面的红色提示中我们看到:当没有指定pages参数的时候,只会默认读取第一页的数据,所以列表的长度为1。
转成dataframe后将原来的索引变成新的一列 (部分数据)
通过pages来读取全部数据:
通过指定pages="all":
同时获取两个表格的数据:
通过area参数来指定:
删除在读取的表格中我们不需要的字段信息
可以将得到的数据输出成不同格式的文件,以json格式为例:
我们可以看到
怎样可以把pdf文件转成所需软件格式
先安装Office
2003中的有关组件。具体方法是:使用Office
2003安装光盘中的“添加或删除功能,更改已安装的功能或删除指定的功能”更新安装该组件,打开Office工具→Microsoft
Office
Document
Imaging,按提示选择安装“扫描、OCR和索引服务筛选器”和“Microsoft
Office
Document
Image
Writer”, 在安装Microsoft
Office
Document
Imaging组件后,Windows
XP系统会自动安装一个名为“Microsoft
Office
Document
Imaging
Writer”的打印机。Imaging组件可以通过这个虚拟打印机,将PDF文件所保存的信息识别,从而达到将它直接转换输出到Word等文字编辑工具第二步:用Adobe
Reader
打开想转换的PDF文件,接下来
选择
“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为
“Microsoft
Office
Document
Image
Writer”,然后,运行
“Microsoft
Office
Document
Imaging”,并利用它来
打开
刚才保存的MDI文件,选择“工具→
将文本发送到Word
”菜单, 识别完成后,系统会自动调出Word,这时你就可以看到,刚才还不能编辑的文字,乖乖的出现在Word编辑窗口中.
至于要转成CDR文件的话建议用ai转成EPS就可以了,但转的时候版本转成8.0版本。
在使用pdf2swf.exe工具把pdf转换swf时,怎么在swf头部添加json数据
public class Pdf2sfwUtil {
//swf 工具的路径
private static String SWFTools_Windows = "F:/Program Files/swftools/pdf2swf.exe ";
public static void convertPDF2SWF(String sourcePath, String destPath,
String fileName) throws IOException {
// 目标路径不存在则建立目标路径
File dest = new File(destPath);
if (!dest.exists())
dest.mkdirs();
// 源文件不存在则返回
File source = new File(sourcePath);
if (!source.exists())
throw new IOException("aaaaa");
// 调用pdf2swf命令进行转换
String command = SWFTools_Windows +" " + sourcePath+ " -o "
+ destPath + fileName + " -f -T 9";
System.out.println(command);
Process process = Runtime.getRuntime().exec(command);
InputStream stderr = process.getErrorStream();
InputStreamReader isr = new InputStreamReader(stderr);
BufferedReader br = new BufferedReader(isr);
String line = null;
while ( (line = br.readLine()) != null)
System.out.println("请忽略:"+line);
int exitVal;
try {
exitVal = process.waitFor();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
/**
* @param args
*/
public static void main(String[] args) {
String sourcePath = "D:\\help.pdf"; //源文件路径
String destPath = "D:\\"; //目标路径
String fileName = "help.swf"; //生成文件名
try {
Pdf2sfwUtil.convertPDF2SWF(sourcePath, destPath, fileName);
} catch (Exception e) {
e.printStackTrace();
}
}
}