本文目录一览：

Java语言编写提取网页信息！求高手指导！
Java 如何只提取网页源代码中的正文部分，就是正文部分包含标签也没关系，就是要那部分包含标签的正文
如何提取网页里的文本？
我想用java的正则表达式提取网页正文，但不知道哪里错了，请帮忙看一下这个表达式

Java语言编写提取网页信息！求高手指导！

JSoup就是很好的第三方解析网页的工具 Document doc1 = Jsoup.connect("地址").get(); //参数是地址 Document doc2 = Jsoup.parse(String html); //参数是网页字符串 //然后就是利用JSoup解析网页优势:爬取网页快速. 解析网页方便强烈推荐~

Java 如何只提取网页源代码中的正文部分，就是正文部分包含标签也没关系，就是要那部分包含标签的正文

相似网页可以用正则表达式来截取不同网站的设计，对正文部分没有一个统一的规则。。。只能找规律，然后做一个类似通解的方法，但是误差无法避免了。。大概思路如下：可以尝试着做一个对比的方法，找出某个标签内的文字和标签的比例最大文字最多，标签最少的一般来说是正文具体实现：得到网页内容，把网页内容分析成一个树（按照每个标签为一个节点），树的内容包含子节点数和该树一下的文字内容数量。大概的对节点进行对比分析，得到节点最少，文字最多的节点。这个就是那个正文节点了。以上内容只适合博客、文章、新闻类的网站。搜索引擎网站等很多标签穿插其间的无法适用。

如何提取网页里的文本？

首先，我们打开浏览器，找到需要复制的文字。
右键点击网页内的空白处，如图所示，弹出菜单中选择“审查元素”。
此时，页面就会显示所有组成元素，我们只要选中我们需要复制的段落，右键点击，“copy element”(复制元素)就可以了。
打开记事本或者Word，点击粘贴，文字复制下来的效果如下图所示。

我想用java的正则表达式提取网页正文，但不知道哪里错了，请帮忙看一下这个表达式

div\sclass\="content\-body"\sid\="shareBody"(?value(\w*))\/div

import java.util.regex.*;
// 表达式对象
Pattern p = Pattern.compile("div\\sclass\\=\"content\\-body\"\\sid\\=\"shareBody\"(?value(\\w*))\\/div");
// 创建 Matcher 对象
Matcher m = p.matcher("");
// 是否找到匹配
boolean found = m.find();
if( found )
{
  String foundstring = m.group();
  int   beginPos    = m.start();
  int   endPos      = m.end();
}

java网页正文提取工具（html提取工具）

本文目录一览：

Java语言编写提取网页信息！求高手指导！

Java 如何只提取网页源代码中的正文部分，就是正文部分包含标签也没关系，就是要那部分包含标签的正文

如何提取网页里的文本？

我想用java的正则表达式提取网页正文，但不知道哪里错了，请帮忙看一下这个表达式