java读取pdf,JAVA读取文件

本文目录一览：

1、java 如何读取PDF文件内容
2、怎么用java读取pdf中的表格
3、用Java 读取 PDF 遇到中文标签该怎么处理
4、如何用java读取pdf文档的部分内容
5、怎么用java读取pdf文件内容
6、java解析pdf文字顺序不对

java 如何读取PDF文件内容

import java.io.File;

import java.io.FileOutputStream;

import java.io.OutputStreamWriter;

import java.io.Writer;

import java.net.MalformedURLException;

import java.net.URL;

import org.pdfbox.pdmodel.PDDocument;

import org.pdfbox.util.PDFTextStripper;

public class PdfReader {

public void readFdf(String file) throws Exception {

// 是否排序

boolean sort = false;

// pdf文件名

String pdfFile = file;

// 输入文本文件名称

String textFile = null;

// 编码方式

String encoding = "UTF-8";

// 开始提取页数

int startPage = 1;

// 结束提取页数

int endPage = Integer.MAX_VALUE;

// 文件输入流，生成文本文件

Writer output = null;

// 内存中存储的PDF Document

PDDocument document = null;

try {

// 首先当作一个URL来装载文件，如果得到异常再从本地文件系统//去装载文件

URL url = new URL(pdfFile);

//注意参数已不是以前版本中的URL.而是File。

document = PDDocument.load(pdfFile);

// 获取PDF的文件名

String fileName = url.getFile();

// 以原来PDF的名称来命名新产生的txt文件

if (fileName.length() 4) {

File outputFile = new File(fileName.substring(0, fileName

.length() - 4)

+ ".txt");

textFile = outputFile.getName();

}

} catch (MalformedURLException e) {

// 如果作为URL装载得到异常则从文件系统装载

//注意参数已不是以前版本中的URL.而是File。

document = PDDocument.load(pdfFile);

if (pdfFile.length() 4) {

textFile = pdfFile.substring(0, pdfFile.length() - 4)

+ ".txt";

}

// 文件输入流，写入文件倒textFile

output = new OutputStreamWriter(new FileOutputStream(textFile),

encoding);

// PDFTextStripper来提取文本

PDFTextStripper stripper = null;

stripper = new PDFTextStripper();

// 设置是否排序

stripper.setSortByPosition(sort);

// 设置起始页

stripper.setStartPage(startPage);

// 设置结束页

stripper.setEndPage(endPage);

// 调用PDFTextStripper的writeText提取并输出文本

stripper.writeText(document, output);

} finally {

if (output != null) {

// 关闭输出流

output.close();

}

if (document != null) {

// 关闭PDF Document

document.close();

}

/**

* @param args

public static void main(String[] args) {

// TODO Auto-generated method stub

PdfReader pdfReader = new PdfReader();

try {

// 取得E盘下的SpringGuide.pdf的内容

pdfReader.readFdf("E://SpringGuide.pdf");

} catch (Exception e) {

e.printStackTrace();

}

怎么用java读取pdf中的表格

ITEXT插件方法

/**

* @param pdf PDF文件路径

* @param txt 输出文本文件路径

* @throws IOException

public void parsePdf(String pdf, String txt) throws IOException {

PdfReader reader = new PdfReader(pdf);

PrintWriter out = new PrintWriter(new FileOutputStream(txt));

Rectangle rect = new Rectangle(70, 80, 490, 580);

RenderFilter filter = new RegionTextRenderFilter(rect);

TextExtractionStrategy strategy;

for (int i = 1; i = reader.getNumberOfPages(); i++) {

strategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), filter);

out.println(PdfTextExtractor.getTextFromPage(reader, i, strategy));

}

out.flush();

out.close();

reader.close();

}

PDFBOX插件方法

PDDocument document = PDDocument.load( args[0] );

if( document.isEncrypted() )

{

document.decrypt( "" );

}

PDFTextStripperByArea stripper = new PDFTextStripperByArea();

stripper.setSortByPosition( true );

Rectangle rect = new Rectangle( 10, 280, 275, 60 );

stripper.addRegion( "class1", rect );

List allPages = document.getDocumentCatalog().getAllPages();

PDPage firstPage = (PDPage)allPages.get( 0 );

stripper.extractRegions( firstPage );

System.out.println( "Text in the area:" + rect );

System.out.println( stripper.getTextForRegion( "class1" ) );

用Java 读取 PDF 遇到中文标签该怎么处理

直接使用系统字体读取或创建带中文的pdf，需要注意jar的版本。

dependency

groupIdcom.itextpdf/groupId

artifactIditextpdf/artifactId

version5.5.8/version

/dependency

dependency

groupIdcom.itextpdf/groupId

artifactIditext-asian/artifactId

version5.2.0/version

/dependency

dependency

groupIdcom.itextpdf.tool/groupId

artifactIdxmlworker/artifactId

version5.5.6/version

/dependency123456789101112131415

代码如下，覆写XMLWorkerFontProvider$getFont即可读取中文

public void createPdf(String src, String dest) throws IOException, DocumentException {

Document document = new Document();

PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream(dest));

document.open();

XMLWorkerHelper.getInstance().parseXHtml(writer, document, new FileInputStream(src), null, new XMLWorkerFontProvider(){ public Font getFont(final String fontname, final String encoding,

final boolean embedded, final float size, final int style,

final BaseColor color) {

BaseFont bf = null;

try {

bf = BaseFont.createFont("C:/Windows/Fonts/SIMYOU.TTF",BaseFont.IDENTITY_H,BaseFont.NOT_EMBEDDED);

} catch (Exception e) {

e.printStackTrace();

}

Font font = new Font(bf, size, style, color);

font.setColor(color);

return font;

}

});

document.close();

}1234567891011121314151617181920212223

创建时，使用系统（windows下）的字体即可

BaseFont baseFont = BaseFont.createFont("C:/Windows/Fonts/SIMYOU.TTF",BaseFont.IDENTITY_H,BaseFont.NOT_EMBEDDED);

Font font = new Font(baseFont);

java读取pdf,JAVA读取文件

如何用java读取pdf文档的部分内容

你需要用到PDFbox api

例子如下

import java.io.File;

import java.io.IOException;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.text.PDFTextStripper;

import org.apache.pdfbox.text.PDFTextStripperByArea;

try {

PDDocument document = null;

document = PDDocument.load(new File("test.pdf"));

document.getClass();

if (!document.isEncrypted()) {

PDFTextStripperByArea stripper = new PDFTextStripperByArea();

stripper.setSortByPosition(true);

PDFTextStripper Tstripper = new PDFTextStripper();

String st = Tstripper.getText(document);

System.out.println("Text:" + st);

}

} catch (Exception e) {

e.printStackTrace();

}

怎么用java读取pdf文件内容

你可以把pdf转成word在进行读取

推荐使用转转大师pdf转word转换器，免费的在线工具

百度搜索下，在线免费转换就行了，不用下载注册，很方便

java解析pdf文字顺序不对

修复你的PDF软件或者调整页面顺序。

java解析pdf获取pdf中内容信息：

第一种使用开源组织提供的开源框架 pdfboxapi ；

特点:免费，功能强大，解析中文或许会存在乱码，默认格式有点乱，没有国产解析的那么美化。

想要按行读取：可以按照指定的模板，对pdf进行修改添加删除等操作，总之操作很骚，很强大。

1.pdfbox 需要带入依赖。

2.代码。

第二种使用国产的框架 Spire.PDF包含两种版本。

1 免费版。

友情提示: 免费版有 10 页的页数输出限制，在输出结果文档时只能输出前10页。将 PDF 文档转换为图片、Word、HTML、XPS等格式时，仅支持转换前 10 页。如超出限制，可升级到商业版，我们仅对免费版进行不定期维护。

2 商业版本。

。

api。

。

特点：商业版本收费，免费版本有限制，可供开发人员调试，解析格式友好，解析结果是按照行显示,对pdf 图形，水印，文本，条形码等添加增删改操作，总之个人感觉比pdfbox顺手，但就是收费啊，谁让咱公司没钱呢。

主要功能：

只需 Free Spire.PDF for Java，无需 Adobe Acrobat。

Free Spire.PDF for Java 是一款完全独立的 PDF 类库。它的运行环境无需安装 Adobe Acrobat 或其他任何第三方组件。

多样化的PDF文档操作功能。

Free Spire.PDF for Java 支持画文本、图片、表格、条形码、形状到 PDF，提取文本和图片，创建、填充和删除 PDF 表单，添加文本/图片水印到 PDF，添加、更新和删除 PDF 书签，操作超链接、附件和注释，以及添加图片/文本印章到 PDF 等。

文档信息设置。

Free Spire.PDF for Java 支持设置 PDF 文档信息，例如文档属性设置，偏好设置（页面方向，页面大小，缩放比例等）。

高质量的文档转换功能。

Free Spire.PDF for Java 支持将 PDF 文档高质量地转换为 Word、HTML、XPS、图片、SVG 和 PDF/A 格式，以及将 XPS 文档高质量地转换为 PDF 格式。

文档安全性设置。

Free Spire.PDF for Java 支持给 PDF 文档添加和验证数字签名，加密和解密 PDF 文档，修改 PDF 文档的安全权限，以及检测签名后的 PDF 文档是否被修改。

易于集成。

开发人员可以轻易地将 Free Spire.PDF for Java 集成到 Java（J2SE和J2EE）应用程序中。

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

java读取pdf,JAVA读取文件

本文目录一览：

java 如何读取PDF文件内容

怎么用java读取pdf中的表格

用Java 读取 PDF 遇到中文标签该怎么处理

如何用java读取pdf文档的部分内容

怎么用java读取pdf文件内容

java解析pdf文字顺序不对

java读取pdf,java读取pdf文件

java读取pdf,JAVA读取文件

Java读取PDF

java读取doc文本,java读取doc文件内容

java超大文件读取（java读取大文本文件）

java学习笔记（java初学笔记）

java读取,java读取excel文件

使用Java读取PDF内容完全指南

java读取word,java读取word内容包括格式

我用java读取rtf文档（java读取tif文件）

java读取文件流,java文件流读取文件

java读取文件,java读取文件中文乱码

Java文件读取

Java读取文件

java中读取excel文件,java 读取 excel

Java文件读取

Java读取文件

java基础知识学习笔记一,Java基础笔记

java在线打开pdf文档,java显示pdf文件

java读取文件,java读取文件夹下所有文件

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

java读取pdf,JAVA读取文件

本文目录一览：

java 如何读取PDF文件内容

怎么用java读取pdf中的表格

用Java 读取 PDF 遇到中文标签该怎么处理

如何用java读取pdf文档的部分内容

怎么用java读取pdf文件内容

java解析pdf文字顺序不对

java读取pdf,java读取pdf文件

java读取pdf,JAVA读取文件

Java读取PDF

java读取doc文本,java读取doc文件内容

java超大文件读取（java读取大文本文件）

java学习笔记（java初学笔记）

java读取,java读取excel文件

使用Java读取PDF内容完全指南

java读取word,java读取word内容包括格式

我用java读取rtf文档（java读取tif文件）

java读取文件流,java文件流读取文件

java读取文件,java读取文件中文乱码

Java文件读取

Java读取文件

java中读取excel文件,java 读取 excel

Java文件读取

Java读取文件

java基础知识学习笔记一,Java基础笔记

java在线打开pdf文档,java显示pdf文件

java读取文件,java读取文件夹下所有文件

人机检测，请谅解