java使用jsoup简单爬虫,jsoup爬取网页

更新：2022-11-20 04:22

本文目录一览：

1、java jsoup怎样爬取特定网页内的数据
2、java爬虫抓取指定数据
3、如何用java爬虫爬取招聘信息

java jsoup怎样爬取特定网页内的数据

1、Jsoup简述

Java中支持的爬虫框架有很多，比如WebMagic、Spider、Jsoup等。

Jsoup拥有十分方便的api来处理html文档，比如参考了DOM对象的文档遍历方法，参考了CSS选择器的用法等等，因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

2、快速开始

1)分析HTML页面，明确哪些数据是需要抓取的

2)使用HttpClient读取HTML页面

HttpClient是一个处理Http协议数据的工具，使用它可以将HTML页面作为输入流读进java程序中.

3)使用Jsoup解析html字符串

通过引入Jsoup工具，直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。

3、保存爬取的页面数据

1)保存普通数据到数据库中

将爬取的数据封装进实体Bean中，并存到数据库内。

2)保存图片到服务器上

直接通过下载图片的方式将图片保存到服务器本地。

java使用jsoup简单爬虫,jsoup爬取网页

java爬虫抓取指定数据

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取图片的流程和爬取内容的流程基本相同，但是爬取图片的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

如何用java爬虫爬取招聘信息

1、思路：

明确需要爬取的信息

分析网页结构

分析爬取流程

优化

2、明确需要爬取的信息

职位名称

工资

职位描述

公司名称

公司主页

详情网页

分析网页结构

3、目标网站-拉勾网

网站使用json作为交互数据，分析json数据，需要的json关键数据

查看需要的信息所在的位置，使用Jsoup来解析网页

4、分析爬取流程

1.获取所有的positionId生成详情页，存放在一个存放网址列表中ListString joburls

2.获取每个详情页并解析为Job类，得到一个存放Job类的列表ListJob jobList

3.把ListJob jobList存进Excel表格中

Java操作Excel需要用到jxl

5、关键代码实现

public ListString getJobUrls(String gj,String city,String kd){

String pre_url="";

String end_url=".html";

String url;

if (gj.equals("")){

url=";city="+city+"needAddtionalResult=falsefirst=falsepn="+pn+"kd="+kd;

}else {

url=""+gj+"px=defaultcity="+city+"needAddtionalResult=falsefirst=falsepn="+pn+"kd="+kd;

}

String rs=getJson(url);

System.out.println(rs);

int total= JsonPath.read(rs,"$.content.positionResult.totalCount");//获取总数

int pagesize=total/15;

if (pagesize=30){

pagesize=30;

}

System.out.println(total);

// System.out.println(rs);

ListInteger posid=JsonPath.read(rs,"$.content.positionResult.result[*].positionId");//获取网页id

for (int j=1;j=pagesize;j++){ //获取所有的网页id

pn++; //更新页数

url=""+gj+"px=defaultcity="+city+"needAddtionalResult=falsefirst=falsepn="+pn+"kd="+kd;

String rs2=getJson(url);

ListInteger posid2=JsonPath.read(rs2,"$.content.positionResult.result[*].positionId");

posid.addAll(posid2); //添加解析的id到第一个list

}

ListString joburls=new ArrayList();

//生成网页列表

for (int id:posid){

String url3=pre_url+id+end_url;

joburls.add(url3);

}

return joburls;

}

public Job getJob(String url){ //获取工作信息

Job job=new Job();

Document document= null;

document = Jsoup.parse(getJson(url));

job.setJobname(document.select(".name").text());

job.setSalary(document.select(".salary").text());

String joball=HtmlTool.tag(document.select(".job_bt").select("div").html());//清除html标签

job.setJobdesc(joball);//职位描述包含要求

job.setCompany(document.select(".b2").attr("alt"));

Elements elements=document.select(".c_feature");

//System.out.println(document.select(".name").text());

job.setCompanysite(elements.select("a").attr("href")); //获取公司主页

job.setJobdsite(url);

return job;

}

void insertExcel(ListJob jobList) throws IOException, BiffException, WriteException {

int row=1;

Workbook wb = Workbook.getWorkbook(new File(JobCondition.filename));

WritableWorkbook book = Workbook.createWorkbook(new File(JobCondition.filename), wb);

WritableSheet sheet=book.getSheet(0);

for (int i=0;ijobList.size();i++){ //遍历工作列表，一行行插入到表格中

sheet.addCell(new Label(0,row,jobList.get(i).getJobname()));

sheet.addCell(new Label(1,row,jobList.get(i).getSalary()));

sheet.addCell(new Label(2,row,jobList.get(i).getJobdesc()));

sheet.addCell(new Label(3,row,jobList.get(i).getCompany()));

sheet.addCell(new Label(4,row,jobList.get(i).getCompanysite()));

sheet.addCell(new Label(5,row,jobList.get(i).getJobdsite()));

row++;

}

book.write();

book.close();

}

java使用jsoup简单爬虫,jsoup爬取网页

本文目录一览： 1、java jsoup怎样爬取特定网页内的数据 2、java爬虫抓取指定数据 3、如何用java爬虫爬取招聘信息 java jsoup怎样爬取特定网页内的数据 1、Jsoup简述 J

2023-12-08

javajsoup用法（java jsoup）

本文目录一览： 1、java jsoup怎样爬取特定网页内的数据 2、java怎样读取html文件 3、java使用jsoup采集网站数据 4、详解如何基于Java用Jsoup爬虫HTML数据 jav

2023-12-08

jsoup程序中使用代理（jsoup教程）

本文目录一览： 1、如何在爬虫中设置代理服务器HttpClient，可以连续爬取，请老师给具体代码，谢谢！ 2、java jsoup怎样爬取特定网页内的数据 3、Jsoup如何在设有有代理的网络中解析

2023-12-08

jsoup获取headercookie,jsoup获取标签内

2022-11-27

采集蛙java爬虫教学视频2的简单介绍

2022-11-16

简单java爬虫,java爬虫程序

2022-11-20

Java爬虫详解

2023-05-19

java抓取网页数据实现下载（java如何爬取网页数据）

2022-11-10

java如何爬取最新的数据（java爬取数据保存到数据库）

2022-11-13

JSoup在Web页面解析中的应用

2023-05-20

Java爬虫教程：从零开始实现爬虫程序

2023-05-17

一个简单的java爬虫框架（java爬虫框架排行）

2022-11-16

Java爬虫框架介绍

2023-05-22

用Java爬取网页数据

2023-05-11

java爬虫（java爬虫和python爬虫）

2022-11-15

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

java使用jsoup简单爬虫,jsoup爬取网页

java使用jsoup简单爬虫,jsoup爬取网页

本文目录一览：

java jsoup怎样爬取特定网页内的数据

java爬虫抓取指定数据

如何用java爬虫爬取招聘信息

java使用jsoup简单爬虫,jsoup爬取网页

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

爬虫java,爬虫java框架

java爬虫,java爬虫代码

java爬虫,java爬虫与python爬虫的区别

java爬虫系列第五讲（JAVA爬虫）

javajsoup用法（java jsoup）

jsoup程序中使用代理（jsoup教程）

jsoup获取headercookie,jsoup获取标签内

采集蛙java爬虫教学视频2的简单介绍

简单java爬虫,java爬虫程序

Java爬虫详解

java抓取网页数据实现下载（java如何爬取网页数据）

java如何爬取最新的数据（java爬取数据保存到数据库）

JSoup在Web页面解析中的应用

Java爬虫教程：从零开始实现爬虫程序

一个简单的java爬虫框架（java爬虫框架排行）

Java爬虫框架介绍

用Java爬取网页数据

java爬虫（java爬虫和python爬虫）

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

java使用jsoup简单爬虫,jsoup爬取网页

java使用jsoup简单爬虫,jsoup爬取网页

本文目录一览：

java jsoup怎样爬取特定网页内的数据

java爬虫抓取指定数据

如何用java爬虫爬取招聘信息

java使用jsoup简单爬虫,jsoup爬取网页

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

爬虫java,爬虫java框架

java爬虫,java爬虫代码

java爬虫,java爬虫与python爬虫的区别

java爬虫系列第五讲（JAVA爬虫）

javajsoup用法（java jsoup）

jsoup程序中使用代理（jsoup教程）

jsoup获取headercookie,jsoup获取标签内

采集蛙java爬虫教学视频2的简单介绍

简单java爬虫,java爬虫程序

Java爬虫详解

java抓取网页数据实现下载（java如何爬取网页数据）

java如何爬取最新的数据（java爬取数据保存到数据库）

JSoup在Web页面解析中的应用

Java爬虫教程：从零开始实现爬虫程序

一个简单的java爬虫框架（java爬虫框架排行）

Java爬虫框架介绍

用Java爬取网页数据

java爬虫（java爬虫和python爬虫）

人机检测，请谅解