java能够解析的文档(java读取文档)

发布时间:2022-11-15

本文目录一览:

  1. JAVA 解析txt文件。
  2. 在java中解析xml有哪几种方法
  3. 如何用JAVA解析txt文件
  4. java 怎样解析 excel生成的xml文件
  5. java解析word文档有哪些方法

JAVA 解析txt文件。

java读取txt文件的内容 类 ?

  1. package txt;
  2. import java.io.BufferedReader;
  3. import java.io.File;
  4. import java.io.FileInputStream;
  5. import java.io.InputStreamReader;
  6. /**
    • 读取TXE数据
  7. */
  8. public class ReadTxtUtils {
  9. public static void main(String arg[]) {
    
  10.     try {
    
  11.         String encoding = "GBK"; // 字符编码(可解决中文乱码问题 )
    
  12.         File file = new File("c:/aa.txt");
    
  13.         if (file.isFile() && file.exists()) {
    
  14.             InputStreamReader read = new InputStreamReader(
    

18 new FileInputStream(file), encoding); 19. BufferedReader bufferedReader = new BufferedReader(read); 20. String lineTXT = null; 21. while ((lineTXT = bufferedReader.readLine()) != null) { 22. System.out.println(lineTXT.toString().trim()); 23. } 24. read.close(); 25. } else { 26. System.out.println("找不到指定的文件!"); 27. } 28. } catch (Exception e) { 29. System.out.println("读取文件内容操作出错"); 30. e.printStackTrace(); 31. } 32. } 33. }

在java中解析xml有哪几种方法

(1) DOM解析

DOM是HTML和XML的应用程序接口(API),以层次结构(类似于树型)来组织节点和信息片段,映射XML文档的结构,允许获取和操作文档的任意部分,是W3C的官方标准 【优点】

  • 允许应用程序对数据和结构做出更改。
  • 访问是双向的,可以在任何时候在树中上下导航,获取和操作任意部分的数据。 【缺点】
  • 通常需要加载整个XML文档来构造层次结构,消耗资源大。 【解析详解】
  • 构建Document对象:
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = bdf.newDocumentBuilder();
InputStream is = Thread.currentThread().getContextClassLoader().getResourceAsStream(xml文件);
Document doc = bd.parse(is);
  • 遍历DOM对象
    • Document:XML文档对象,由解析器获取
    • NodeList:节点数组
    • Node:节点(包括element、#text)
    • Element:元素,可用于获取属性参数

(2) SAX(Simple API for XML)解析

流模型中的"推"模型分析方式。通过事件驱动,每发现一个节点就引发一个事件,事件推给事件处理器,通过回调方法完成解析工作,解析XML文档的逻辑需要应用程序完成 【优势】

  • 不需要等待所有数据都被处理,分析就能立即开始。
  • 只在读取数据时检查数据,不需要保存在内存中。
  • 可以在某个条件得到满足时停止解析,不必解析整个文档。
  • 效率和性能较高,能解析大于系统内存的文档。 【缺点】
  • 需要应用程序自己负责TAG的处理逻辑(例如维护父/子关系等),文档越复杂程序就越复杂。
  • 单向导航,无法定位文档层次,很难同时访问同一文档的不同部分数据,不支持XPath。 【原理】 简单的说就是对文档进行顺序扫描,当扫描到文档(document)开始与结束、元素(element)开始与结束时通知事件处理函数(回调函数),进行相应处理,直到文档结束 【事件处理器类型】
  • 访问XML DTD:DTDHandler
  • 低级访问解析错误:ErrorHandler
  • 访问文档内容:ContextHandler 【DefaultHandler类】 SAX事件处理程序的默认基类,实现了DTDHandler、ErrorHandler、ContextHandler和EntityResolver接口,通常做法是,继承该基类,重写需要的方法,如startDocument() 【创建SAX解析器】
SAXParserFactory saxf = SAXParserFactory.newInstance();
SAXParser sax = saxf.newSAXParser();

注:关于遍历

  • 深度优先遍历(Depth-First Traversal)
  • 广度优先遍历(Width-First Traversal)

(3) JDOM(Java-based Document Object Model)

Java特定的文档对象模型。自身不包含解析器,使用SAX 【优点】

  • 使用具体类而不是接口,简化了DOM的API。
  • 大量使用了Java集合类,方便了Java开发人员。 【缺点】
  • 没有较好的灵活性。
  • 性能较差。

(4) DOM4J(Document Object Model for Java)

简单易用,采用Java集合框架,并完全支持DOM、SAX和JAXP 【优点】

  • 大量使用了Java集合类,方便Java开发人员,同时提供一些提高性能的替代方法。
  • 支持XPath。
  • 有很好的性能。 【缺点】
  • 大量使用了接口,API较为复杂。

(5) StAX(Streaming API for XML)

流模型中的拉模型分析方式。提供基于指针和基于迭代器两种方式的支持,JDK1.6新特性 【和推式解析相比的优点】

  • 在拉式解析中,事件是由解析应用产生的,因此拉式解析中向客户端提供的是解析规则,而不是解析器。
  • 同推式解析相比,拉式解析的代码更简单,而且不用那么多库。
  • 拉式解析客户端能够一次读取多个XML文件。
  • 拉式解析允许你过滤XML文件和跳过解析事件。 【简介】 StAX API的实现是使用了Java Web服务开发(JWSDP)1.6,并结合了Sun Java流式XML分析器(SJSXP)-它位于javax.xml.stream包中。XMLStreamReader接口用于分析一个XML文档,而XMLStreamWriter接口用于生成一个XML文档。XMLEventReader负责使用一个对象事件迭代子分析XML事件-这与XMLStreamReader所使用的光标机制形成对照。

如何用JAVA解析txt文件

java读取txt文件内容。可以作如下理解: 首先获得一个文件句柄。File file = new File(); file即为文件句柄。两人之间连通电话网络了。接下来可以开始打电话了。 通过这条线路读取甲方的信息:new FileInputStream(file) 目前这个信息已经读进来内存当中了。接下来需要解读成乙方可以理解的东西。既然你使用了FileInputStream()。那么对应的需要使用InputStreamReader()这个方法进行解读刚才装进来内存当中的数据。 解读完成后要输出呀。那当然要转换成IO可以识别的数据呀。那就需要调用字节码读取的方法BufferedReader()。同时使用bufferedReader()readline()方法读取txt文件中的每一行数据哈。

package com.campu;
import java.io.BufferedInputStream;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.io.Reader;
public class H20121012 {
    /**
     * 功能:Java读取txt文件的内容
         * 步骤:1:先获得文件句柄
     * 2:获得文件句柄当做是输入一个字节码流,需要对这个输入流进行读取
     * 3:读取到输入流后,需要读取生成字节流
     * 4:一行一行的输出。readline()。
     * 备注:需要考虑的是异常情况
     * @param filePath
     */
    public static void readTxtFile(String filePath) {
        try {
            String encoding = "GBK";
            File file = new File(filePath);
            if (file.isFile() && file.exists()) { //判断文件是否存在
                InputStreamReader read = new InputStreamReader(
                        new FileInputStream(file), encoding); //考虑到编码格式
                BufferedReader bufferedReader = new BufferedReader(read);
                String lineTxt = null;
                while ((lineTxt = bufferedReader.readLine()) != null) {
                    System.out.println(lineTxt);
                }
                read.close();
            } else {
                System.out.println("找不到指定的文件");
            }
        } catch (Exception e) {
            System.out.println("读取文件内容出错");
            e.printStackTrace();
        }
    }
    public static void main(String argv[]) {
        String filePath = "L:\\Apache\\htdocs\\res\\20121012.txt";
        // "res/";
        readTxtFile(filePath);
    }
}

java 怎样解析 excel生成的xml文件

java解析excel生成的xml文件的方法是使用dom4j实现的。 dom4j是一个简单的开源库,用于处理XML、 XPath和XSLT,它基于Java平台,使用Java的集合框架,全面集成了DOM,SAX和JAXP。

1、excel生成的xml样例文件:

<?xml version="1.0"?>
<?mso-application progid="Excel.Sheet"?>
<Workbook xmlns="urn:schemas-microsoft-com:office:spreadsheet"
    xmlns:o="urn:schemas-microsoft-com:office:office"
    xmlns:x="urn:schemas-microsoft-com:office:excel"
    xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet"
    xmlns:html=""
    DocumentProperties xmlns="urn:schemas-microsoft-com:office:office"
    Created2006-09-16T00:00:00Z/Created
    LastSaved2016-07-25T03:26:50Z/LastSaved
    Version14.00/Version
</DocumentProperties>
<OfficeDocumentSettings xmlns="urn:schemas-microsoft-com:office:office">
    <AllowPNG/>
    <RemovePersonalInformation/>
</OfficeDocumentSettings>
<ExcelWorkbook xmlns="urn:schemas-microsoft-com:office:excel">
    <WindowHeight7956/>
    <WindowWidth14808/>
    <WindowTopX240/>
    <WindowTopY168/>
    <ActiveSheet2/>
    <ProtectStructureFalse/>
    <ProtectWindowsFalse/>
</ExcelWorkbook>
<Styles>
    <Style ss:ID="Default" ss:Name="Normal">
        <Alignment ss:Vertical="Bottom"/>
        <Borders/>
        <Font ss:FontName="宋体" x:CharSet="134" ss:Size="11" ss:Color="#000000"/>
        <Interior/>
        <NumberFormat/>
        <Protection/>
    </Style>
    <Style ss:ID="s16" ss:Name="好">
        <Font ss:FontName="宋体" x:CharSet="134" ss:Size="11" ss:Color="#006100"/>
        <Interior ss:Color="#C6EFCE" ss:Pattern="Solid"/>
    </Style>
    <Style ss:ID="s17">
        <Alignment ss:Horizontal="Left" ss:Vertical="Center" ss:Indent="1"
            ss:WrapText="1"/>
        <Font ss:FontName="宋体" x:CharSet="134" ss:Size="8" ss:Color="#686868"/>
        <NumberFormat ss:Format="@"/>
    </Style>
    <Style ss:ID="s18" ss:Parent="s16">
        <Alignment ss:Vertical="Bottom"/>
    </Style>
    <Style ss:ID="s19">
        <NumberFormat ss:Format="yyyy/m/d\ h:mm:ss"/>
    </Style>
</Styles>
<Worksheet ss:Name="Sheet1">
    <Table ss:ExpandedColumnCount="6" ss:ExpandedRowCount="3" x:FullColumns="1"
        x:FullRows="1" ss:DefaultRowHeight="14.4">
        <Row>
            <Cell>Data ss:Type="String"工号</Data></Cell>
            <Cell>Data ss:Type="String"姓名 </Data></Cell>
            <Cell ss:Index="5">Data ss:Type="String"工号</Data></Cell>
            <Cell>Data ss:Type="String"姓名</Data></Cell>
        </Row>
        <Row>
            <Cell>Data ss:Type="Number"111</Data></Cell>
            <Cell>Data ss:Type="String"张三</Data></Cell>
            <Cell ss:Index="5">Data ss:Type="Number"111</Data></Cell>
            <Cell ss:Formula="=VLOOKUP(R2C5:R3C5,RC[-5]:R[1]C[-4],2)">Data
                ss:Type="String"张三</Data></Cell>
        </Row>
        <Row>
            <Cell>Data ss:Type="Number"112</Data></Cell>
            <Cell>Data ss:Type="String"李四</Data></Cell>
            <Cell ss:Index="5">Data ss:Type="Number"112</Data></Cell>
            <Cell ss:Formula="=VLOOKUP(R2C5:R3C5,RC[-5]:R[1]C[-4],2)">Data
                ss:Type="String"李四</Data></Cell>
        </Row>
    </Table>
    <WorksheetOptions xmlns="urn:schemas-microsoft-com:office:excel">
        <PageSetup>
            <Header x:Margin="0.3"/>
            <Footer x:Margin="0.3"/>
            <PageMargins x:Bottom="0.75" x:Left="0.7" x:Right="0.7" x:Top="0.75"/>
        </PageSetup>
        <Panes>
            <Pane>
                <Number3/>
                <ActiveRow7/>
                <ActiveCol5/>
            </Pane>
        </Panes>
        <ProtectObjectsFalse/>
        <ProtectScenariosFalse/>
    </WorksheetOptions>
</Worksheet>
</Workbook>

2、java解析代码:

import java.io.File;
import java.util.Iterator;
import org.dom4j.Attribute;
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
public class Demo {
    public static void main(String[] args) throws Exception {
        SAXReader reader = new SAXReader();
        Document document = reader.read(new File("person.xml"));
        Element root = document.getRootElement();
        Iterator it = root.elementIterator();
        while (it.hasNext()) {
            Element element = (Element) it.next();
            // 未知属性名称情况下
            /* Iterator attrIt = element.attributeIterator();
            while (attrIt.hasNext()) {
                Attribute a = (Attribute) attrIt.next();
                System.out.println(a.getValue());
            } */
            // 已知属性名称情况下
            System.out.println("id: " + element.attributeValue("id"));
            // 未知元素名情况下
            /* Iterator eleIt = element.elementIterator();
            while (eleIt.hasNext()) {
                Element e = (Element) eleIt.next();
                System.out.println(e.getName() + ": " + e.getText());
            }
            System.out.println(); */
            // 已知元素名情况下
            System.out.println("title: " + element.elementText("title"));
            System.out.println("author: " + element.elementText("author"));
            System.out.println();
        }
    }
}

java解析word文档有哪些方法

java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itext好像写很方便但是我查了好久资料没有见到关于读的好办法。经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。rtf格式文件表面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。

实现的功能:

读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。

实现思路:

模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。

  1. 采用字节的形式读取rtf模板内容
  2. 将可变的内容字符串转为rtf编码
  3. 替换原文中的可变部分,形成新的rtf文档 主要程序如下:
public String bin2hex(String bin) {
    char[] digital = "0123456789ABCDEF".toCharArray();
    StringBuffer sb = new StringBuffer("");
    byte[] bs = bin.getBytes();
    int bit;
    for (int i = 0; i < bs.length; i++) {
        bit = (bs[i] & 0x0f0) >> 4;
        sb.append("\\'");
        sb.append(digital[bit]);
        bit = bs[i] & 0x0f;
        sb.append(digital[bit]);
    }
    return sb.toString();
}
public String readByteRtf(InputStream ins, String path) {
    String sourcecontent = "";
    try {
        ins = new FileInputStream(path);
        byte[] b = new byte[1024];
        if (ins == null) {
            System.out.println("源模板文件不存在");
        }
        int bytesRead = 0;
        while (true) {
            bytesRead = ins.read(b, 0, 1024); // return final read bytes counts
            if (bytesRead == -1) { // end of InputStream
                System.out.println("读取模板文件结束");
                break;
            }
            sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes
        }
    } catch (Exception e) {
        e.printStackTrace();
    }
    return sourcecontent;
}

以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr);方法可以实现,在这就不贴了。源代码部分详见附件。

运行源代码前提:

c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf的文件。

package com;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.PrintWriter;
import java.text.SimpleDateFormat;
import java.util.Date;
public class OperatorRTF {
    public String strToRtf(String content) {
        char[] digital = "0123456789ABCDEF".toCharArray();
        StringBuffer sb = new StringBuffer("");
        byte[] bs = content.getBytes();
        int bit;
        for (int i = 0; i < bs.length; i++) {
            bit = (bs[i] & 0x0f0) >> 4;
            sb.append("\\'");
            sb.append(digital[bit]);
            bit = bs[i] & 0x0f;
            sb.append(digital[bit]);
        }
        return sb.toString();
    }
    public String replaceRTF(String content, String replacecontent, int flag) {
        String rc = strToRtf(replacecontent);
        String target = "";
        if (flag == 0) {
            target = content.replace("$timetop$", rc);
        }
        if (flag == 1) {
            target = content.replace("$info$", rc);
        }
        if (flag == 2) {
            target = content.replace("$idea$", rc);
        }
        if (flag == 3) {
            target = content.replace("$advice$", rc);
        }
        if (flag == 4) {
            target = content.replace("$infosend$", rc);
        }
        return target;
    }
    public String getSavePath() {
        String path = "C:\\YQ";
        File fDirecotry = new File(path);
        if (!fDirecotry.exists()) {
            fDirecotry.mkdirs();
        }
        return path;
    }
    public String ToSBC(String input) {
        char[] c = input.toCharArray();
        for (int i = 0; i < c.length; i++) {
            if (c[i] == 32) {
                c[i] = (char) 12288;
                continue;
            }
            if (c[i] < 127) {
                c[i] = (char) (c[i] + 65248);
            }
        }
        return new String(c);
    }
    public void rgModel(String username, String content) {
        Date current = new Date();
        SimpleDateFormat sdf = new java.text.SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
        String targetname = sdf.format(current).substring(11, 13) + "时";
        targetname += sdf.format(current).substring(14, 16) + "分";
        targetname += sdf.format(current).substring(17, 19) + "秒";
        targetname += "_" + username + "_记录.rtf";
        String strpath = getSavePath();
        String sourname = strpath + "\\" + "模板.rtf";
        String sourcecontent = "";
        InputStream ins = null;
        try {
            ins = new FileInputStream(sourname);
            byte[] b = new byte[1024];
            if (ins == null) {
                System.out.println("源模板文件不存在");
            }
            int bytesRead = 0;
            while (true) {
                bytesRead = ins.read(b, 0, 1024); // return final read bytes counts
                if (bytesRead == -1) { // end of InputStream
                    System.out.println("读取模板文件结束");
                    break;
                }
                sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        String targetcontent = "";
        String array[] = content.split("~");
        for (int i = 0; i < array.length; i++) {
            if (i == 0) {
                targetcontent = replaceRTF(sourcecontent, array[i], i);
            } else {
                targetcontent = replaceRTF(targetcontent, array[i], i);
            }
        }
        try {
            FileWriter fw = new FileWriter(getSavePath() + "\\" + targetname, true);
            PrintWriter out = new PrintWriter(fw);
            if (targetcontent.equals("") || targetcontent == "") {
                out.println(sourcecontent);
            } else {
                out.println(targetcontent);
            }
            out.close();
            fw.close();
            System.out.println(getSavePath() + " 该目录下生成文件" + targetname + " 成功");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    public static void main(String[] args) {
        OperatorRTF oRTF = new OperatorRTF();
        String content = "2008年10月12日9时-2008年10月12日6时~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法";
        oRTF.rgModel("cheney", content);
    }
}