java抓取网页,java抓取网页指定id的选项

本文目录一览：

1、java jsoup怎样爬取特定网页内的数据
2、如何使用Java抓取网页上指定部分的内容
3、如何通过Java代码实现对网页数据进行指定抓取

java jsoup怎样爬取特定网页内的数据

1、Jsoup简述

Java中支持的爬虫框架有很多，比如WebMagic、Spider、Jsoup等。

Jsoup拥有十分方便的api来处理html文档，比如参考了DOM对象的文档遍历方法，参考了CSS选择器的用法等等，因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

2、快速开始

1)分析HTML页面，明确哪些数据是需要抓取的

2)使用HttpClient读取HTML页面

HttpClient是一个处理Http协议数据的工具，使用它可以将HTML页面作为输入流读进java程序中.

3)使用Jsoup解析html字符串

通过引入Jsoup工具，直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。

3、保存爬取的页面数据

1)保存普通数据到数据库中

将爬取的数据封装进实体Bean中，并存到数据库内。

2)保存图片到服务器上

直接通过下载图片的方式将图片保存到服务器本地。

java抓取网页,java抓取网页指定id的选项

如何使用Java抓取网页上指定部分的内容

1. 你可以选择用Java代码来找到整个网页的html代码，如下

(注意在处理网页方面的内容时，需要导入htmlparser包来支持)

import org.htmlparser.util.ParserException;

import org.htmlparser.visitors.HtmlPage;

import org.htmlparser.Parser;

import org.htmlparser.filters.HasAttributeFilter;

import org.htmlparser.util.NodeList;

public class htmlmover {

public static void main(String[] args){

NodeList rt= getNodeList("");

System.out.println(rt.toHtml());

}

public static NodeList getNodeList(String url){

Parser parser = null;

HtmlPage visitor = null;

try {

parser = new Parser(url);

parser.setEncoding("GBK");

visitor = new HtmlPage(parser);

parser.visitAllNodesWith(visitor);

} catch (ParserException e) {

e.printStackTrace();

}

NodeList nodeList = visitor.getBody();

return nodeList;

}

以上代码，public static NodeList getNodeList(String url) 为主体

传入需要分析网页的 url(String类型)，返回值是网页Html节点List(Nodelist类型)

这个方法我没有什么要说的，刚开始的时候没看懂（没接触过），后来用了几次也懂点皮毛了

注意： parser.setEncoding("GBK"); 可能你的工程编码格式是UTF-8,有错误的话需要改动

运行该程序

2.通过浏览器工具直接查看 IE是按F12 （刚开始没发现这个方法，于是傻乎乎地找上面的代码）

分析你所获得的html代码让人眼花缭乱，不要紧，找到自己需要趴取的内容，找到它上下文有特征的节点

!--中行牌价开始--

div id="sw01_con1"

table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab"

thead

th width="85" align="center" class="th_l"交易币种/th

th width="80" align="center"交易单位/th

th width="130" align="center"现价(人民币)/th

th width="80" align="center"卖出价/th

th width="100" align="center"现汇买入价/th

th width="95" align="center"现钞买入价/th

/tr

/thead

tbody

tr align="center"

td 英镑/td

td100/td

td992.7/td

td1001.24/td

td993.26/td

td class="no"962.6/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 港币/td

td100/td

td81.54/td

td82.13/td

td81.81/td

td class="no"81.16/td

/tr

tr align="center"

td 美元/td

td100/td

td635.49/td

td639.35/td

td636.8/td

td class="no"631.69/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 瑞士法郎/td

td100/td

td710.89/td

td707.78/td

td702.14/td

td class="no"680.46/td

/tr

tr align="center"

td 新加坡元/td

td100/td

td492.45/td

td490.17/td

td486.27/td

td class="no"471.25/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 瑞典克朗/td

td100/td

td93.66/td

td93.79/td

td93.04/td

td class="no"90.17/td

/tr

tr align="center"

td 丹麦克朗/td

td100/td

td116.43/td

td115.59/td

td114.67/td

td class="no"111.13/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 挪威克朗/td

td100/td

td110.01/td

td109.6/td

td108.73/td

td class="no"105.37/td

/tr

!--{2011-10-01 23:16:00}--

/tbody

/table

/div

!--中行牌价结束--

大家可以看到这是一段很有规律，书写非常规范的Html代码（这只是第一部分，中行牌价，可以想像，接下来还会有并列的相似的3部分）

大家想截取这些节点中的数据

以下代码仍需导入htmlparser Java支持包

import java.util.ArrayList;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

public class Currencyrate {

public static void main(String[] args){

String url="";

ArrayListString rt= getNodeList(url);

for (int i = 0; i rt.size(); i++){

System.out.println(rt.get(i));

}

public static ArrayListString getNodeList(String url){

final ArrayListString result=new ArrayListString();

Parser parser = null;

NodeList nodeList=null;

try {

parser = new Parser(url);

parser.setEncoding("GBK");

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

Node need=node;

if(getStringsByRegex(node.getText())){

for(int i=0;i6;i++){

result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

}

return true;

}

return false;

}

);

}catch (ParserException e) {

e.printStackTrace();

}

return result;

}

public static boolean getStringsByRegex(String txt) {

String regex="td class=\"no\"";

Pattern p = Pattern.compile(regex);

Matcher m = p.matcher(txt);

if (m.find()){

return true;

}

return false;

}

废话不多说，

public static ArrayListString getNodeList(String url) 主要方法

parser.setEncoding("GBK"); 需要注意，代码编码格式

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

}

｝

);

nodelist是html节点的列表，现在使用NodeFilter ( 节点过滤器 )实例，重载NodeFilter类中的accept()方法

在parser这个Parser类访问整个html页面的时候，每遇到一个html节点，就会访问这个

accept()方法，返回True的话就会将这个节点放进nodelist中，否则就不会将这个节点放进去。这个就是NodeFilter功能。

代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor); 就是获取所有节点

所以现在我们要趴取网页上的内容，只要告诉accept()这个方法，哪些节点要放进nodelist去，即遇到哪些节点需要返回true。

于是

public boolean accept(Node node){

Node need=node;

if(getStringsByRegex(node.getText())){

for(int i=0;i6;i++){

result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

}

return true;

}

return false;

}

Parser类在遇到节点，就把这个节点拿过去问accept()，于是accept()方法分析，如果满足getStringsByRegex(node.getText())就要了

接下来分析getStringsByRegex()，只剩下最后一步了，大家坚持啊！

String regex="td class=\"no\"";

Pattern p = Pattern.compile(regex);

Matcher m = p.matcher(txt);

if (m.find()){

return true;

}

return false;

}

大家可以发现我们索要的每一段都是

tr align="center"

td 英镑/td

td100/td

td992.7/td

td1001.24/td

td993.26/td

td class="no"962.6/td

/tr

所以只要找到td class="no"这个节点就行了，我们用正则表达式去比较

String regex="td class=\"no\""; 这个是比较标准（正则表达式 td class=”no” 其中两个引号需要作为转义字符来表示成\“ ）

变量txt是我们传过去的需要比较的节点的node.getText()，如果符合的话m.find就是true,于是getStringsByRegex()返回true，说明这个节点就是我们所需要的哪些节点，于是

for(int i=0;i6;i++){

result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

}

每一段html，6个为一组，先是962.6，然后是993.26，1001.24，992.7，100，英镑分别被add进result这个ArrayListString中去，返回，这个ArrayList装的就是我们需要抓取的数据

大家可以把我们所获得的String数据数出来试试看，是不是我们需要的顺序，main()函数获得ArrayListString，就可以显示到我们所需要的Java widget上去了

如何通过Java代码实现对网页数据进行指定抓取

通过Java代码实现对网页数据进行指定抓取方法步骤如下：

1在工程中导入Jsoup.jar包

2获取网址url指定HTML或者文档指定的body

3获取网页中超链接的标题和链接

4获取指定博客文章的内容

5获取网页中超链接的标题和链接的结果

java使用jsoup简单爬虫,jsoup爬取网页

本文目录一览： 1、java jsoup怎样爬取特定网页内的数据 2、java爬虫抓取指定数据 3、如何用java爬虫爬取招聘信息 java jsoup怎样爬取特定网页内的数据 1、Jsoup简述 J

2023-12-08

怎么抽取网页整理,怎么抽取网页整理数据

2023-01-08

phantomjs抓取网页（phantomjs爬虫）

本文目录一览： 1、如何获取PhantomJS打开网页时加载的JS资源 2、使用phantomjs进行网页抓取，怎么获得div中的文本 3、如何用phantomjs去抓取js渲染后的页面 4、phan

2023-12-08

java通过url获取网页内容,怎么获取网页URL

2022-11-23

python网页提取数据（python怎么抓取网页数据）

2022-11-08

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

java抓取网页,java抓取网页指定id的选项

本文目录一览：

java jsoup怎样爬取特定网页内的数据

如何使用Java抓取网页上指定部分的内容

如何通过Java代码实现对网页数据进行指定抓取

java抓取网页,java抓取网页指定id的选项

php抓取网页和分析,php抓取网页内容

php网页抓取分析小应用,php抓取页面指定内容

php抓取网页内容经验总结,php抓取页面指定内容

java抓取网页数据实现下载（java如何爬取网页数据）

php抓取网页源代码,php获取网页源代码

基于Java的网页数据抓取实现原理

如何使用Java抓取网页信息？

php抓取网页上的指定内容（php截取网页指定内容）

使用cURL PHP进行网页抓取

php抓取网页div内容,php截取网页指定内容

golang抓取网页,golang 抓包

php抓取网页页面方法汇总,php自动采集网页内容

如何抓取网页视频

网页数据抓取工具

java使用jsoup简单爬虫,jsoup爬取网页

怎么抽取网页整理,怎么抽取网页整理数据

phantomjs抓取网页（phantomjs爬虫）

java通过url获取网页内容,怎么获取网页URL

python网页提取数据（python怎么抓取网页数据）

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

java抓取网页,java抓取网页指定id的选项

本文目录一览：

java jsoup怎样爬取特定网页内的数据

如何使用Java抓取网页上指定部分的内容

如何通过Java代码实现对网页数据进行指定抓取

java抓取网页,java抓取网页指定id的选项

php抓取网页和分析,php抓取网页内容

php网页抓取分析小应用,php抓取页面指定内容

php抓取网页内容经验总结,php抓取页面指定内容

java抓取网页数据实现下载（java如何爬取网页数据）

php抓取网页源代码,php获取网页源代码

基于Java的网页数据抓取实现原理

如何使用Java抓取网页信息？

php抓取网页上的指定内容（php截取网页指定内容）

使用cURL PHP进行网页抓取

php抓取网页div内容,php截取网页指定内容

golang抓取网页,golang 抓包

php抓取网页页面方法汇总,php自动采集网页内容

如何抓取网页视频

网页数据抓取工具

java使用jsoup简单爬虫,jsoup爬取网页

怎么抽取网页整理,怎么抽取网页整理数据

phantomjs抓取网页（phantomjs爬虫）

java通过url获取网页内容,怎么获取网页URL

python网页提取数据（python怎么抓取网页数据）

人机检测，请谅解