jspider纯java爬虫（java实现爬虫）

更新：2022-11-14 07:34

本文目录一览：

1、在Java爬虫中使用Spider应该怎样初始化?
2、java 网络爬虫怎么实现
3、常用的java蜘蛛有哪些？

在Java爬虫中使用Spider应该怎样初始化?

Java的属性初始化

步骤 1 : 对象属性初始化

对象属性初始化有3种

1. 声明该属性的时候初始化

2. 构造方法中初始化

3. 初始化块

步骤 2 : 类属性初始化

类属性初始化有2种

1. 声明该属性的时候初始化

2. 静态初始化块

java 网络爬虫怎么实现

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。

以下是一个使用java实现的简单爬虫核心代码：

public void crawl() throws Throwable {

while (continueCrawling()) {

CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL

if (url != null) {

printCrawlInfo();

String content = getContent(url); //获取URL的文本信息

//聚焦爬虫只爬取与主题内容相关的网页，这里采用正则匹配简单处理

if (isContentRelevant(content, this.regexpSearchPattern)) {

saveContent(url, content); //保存网页至本地

//获取网页内容中的链接，并放入待爬取队列中

Collection urlStrings = extractUrls(content, url);

addUrlsToUrlQueue(url, urlStrings);

} else {

System.out.println(url + " is not relevant ignoring ...");

}

//延时防止被对方屏蔽

Thread.sleep(this.delayBetweenUrls);

}

closeOutputStream();

}

private CrawlerUrl getNextUrl() throws Throwable {

CrawlerUrl nextUrl = null;

while ((nextUrl == null) (!urlQueue.isEmpty())) {

CrawlerUrl crawlerUrl = this.urlQueue.remove();

//doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的"Robot.txt"中配置的规则进行爬取

//isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap

//isDepthAcceptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免

if (doWeHavePermissionToVisit(crawlerUrl)

(!isUrlAlreadyVisited(crawlerUrl))

isDepthAcceptable(crawlerUrl)) {

nextUrl = crawlerUrl;

// System.out.println("Next url to be visited is " + nextUrl);

}

return nextUrl;

}

private String getContent(CrawlerUrl url) throws Throwable {

//HttpClient4.1的调用与之前的方式不同

HttpClient client = new DefaultHttpClient();

HttpGet httpGet = new HttpGet(url.getUrlString());

StringBuffer strBuf = new StringBuffer();

HttpResponse response = client.execute(httpGet);

if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {

HttpEntity entity = response.getEntity();

if (entity != null) {

BufferedReader reader = new BufferedReader(

new InputStreamReader(entity.getContent(), "UTF-8"));

String line = null;

if (entity.getContentLength() 0) {

strBuf = new StringBuffer((int) entity.getContentLength());

while ((line = reader.readLine()) != null) {

strBuf.append(line);

}

if (entity != null) {

nsumeContent();

}

//将url标记为已访问

markUrlAsVisited(url);

return strBuf.toString();

}

public static boolean isContentRelevant(String content,

Pattern regexpPattern) {

boolean retValue = false;

if (content != null) {

//是否符合正则表达式的条件

Matcher m = regexpPattern.matcher(content.toLowerCase());

retValue = m.find();

}

return retValue;

}

public List extractUrls(String text, CrawlerUrl crawlerUrl) {

Map urlMap = new HashMap();

extractHttpUrls(urlMap, text);

extractRelativeUrls(urlMap, text, crawlerUrl);

return new ArrayList(urlMap.keySet());

}

private void extractHttpUrls(Map urlMap, String text) {

Matcher m = (text);

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href=\"");

for (String term : terms) {

// System.out.println("Term = " + term);

if (term.startsWith("http")) {

int index = term.indexOf("\"");

if (index 0) {

term = term.substring(0, index);

}

urlMap.put(term, term);

System.out.println("Hyperlink: " + term);

}

private void extractRelativeUrls(Map urlMap, String text,

CrawlerUrl crawlerUrl) {

Matcher m = relativeRegexp.matcher(text);

URL textURL = crawlerUrl.getURL();

String host = textURL.getHost();

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href=\"");

for (String term : terms) {

if (term.startsWith("/")) {

int index = term.indexOf("\"");

if (index 0) {

term = term.substring(0, index);

}

String s = //" + host + term;

urlMap.put(s, s);

System.out.println("Relative url: " + s);

}

public static void main(String[] args) {

try {

String url = "";

Queue urlQueue = new LinkedList();

String regexp = "java";

urlQueue.add(new CrawlerUrl(url, 0));

NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,

regexp);

// boolean allowCrawl = crawler.areWeAllowedToVisit(url);

// System.out.println("Allowed to crawl: " + url + " " +

// allowCrawl);

crawler.crawl();

} catch (Throwable t) {

System.out.println(t.toString());

t.printStackTrace();

}

jspider纯java爬虫（java实现爬虫）

常用的java蜘蛛有哪些？

常用的java蜘蛛有：Heritrix 、WebSPHINX 、WebLech 、Arale、J-Spider、spindle、Arachnid 、LARM 、JoBo 。

1、Heritrix是一个开源，可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

2、WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。

3、WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

4、Arale主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

5、J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查，分析网站的结构(可创建一个网站地图),下载整个Web站点，你还可以写一个JSpider插件来扩展你所需要的功能。

6、spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

7、Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

8、LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。

9、JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如：自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如：通过网页的URL，大小，MIME类型等)来限制下载。

jspider纯java爬虫（java实现爬虫）

本文目录一览： 1、在Java爬虫中使用Spider应该怎样初始化? 2、java 网络爬虫怎么实现 3、常用的java蜘蛛有哪些？在Java爬虫中使用Spider应该怎样初始化? Java的属性初

2023-12-08

爬虫pythonjson（爬虫python和java）

本文目录一览： 1、Python爬虫笔记（二）requests模块get，post，代理 2、Python爬虫（七）数据处理方法之JSON 3、Python与爬虫有什么关系？ Python爬虫笔记（二

2023-12-08

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

2022-11-14

网络爬虫java,网络爬虫技术

2022-12-02

网络爬虫java,网络爬虫python代码

2023-01-06

Java爬虫详解

2023-05-19

java并发小说爬虫,java爬取小说

2022-11-23

一个简单的java爬虫框架（java爬虫框架排行）

2022-11-16

Java爬虫教程：从零开始实现爬虫程序

2023-05-17

python爬虫学习5,python爬虫笔记

2022-11-20

python爬虫之基础内容,python爬虫笔记

2022-11-21

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

jspider纯java爬虫（java实现爬虫）

jspider纯java爬虫（java实现爬虫）

本文目录一览：

在Java爬虫中使用Spider应该怎样初始化?

java 网络爬虫怎么实现

常用的java蜘蛛有哪些？

jspider纯java爬虫（java实现爬虫）

java爬虫（java爬虫和python爬虫）

java爬虫,java爬虫代码

爬虫java,爬虫java框架

java网络爬虫,爬虫 java

java爬虫,java爬虫与python爬虫的区别

java网络爬虫,爬虫Java

爬虫java,爬虫JavascriptvoidO

简单java爬虫,java爬虫程序

java爬虫系列第五讲（JAVA爬虫）

爬虫pythonjson（爬虫python和java）

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

网络爬虫java,网络爬虫技术

网络爬虫java,网络爬虫python代码

Java爬虫详解

java并发小说爬虫,java爬取小说

一个简单的java爬虫框架（java爬虫框架排行）

Java爬虫教程：从零开始实现爬虫程序

python爬虫学习5,python爬虫笔记

python爬虫之基础内容,python爬虫笔记

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

jspider纯java爬虫（java实现爬虫）

jspider纯java爬虫（java实现爬虫）

本文目录一览：

在Java爬虫中使用Spider应该怎样初始化?

java 网络爬虫怎么实现

常用的java蜘蛛有哪些？

jspider纯java爬虫（java实现爬虫）

java爬虫（java爬虫和python爬虫）

java爬虫,java爬虫代码

爬虫java,爬虫java框架

java网络爬虫,爬虫 java

java爬虫,java爬虫与python爬虫的区别

java网络爬虫,爬虫Java

爬虫java,爬虫JavascriptvoidO

简单java爬虫,java爬虫程序

java爬虫系列第五讲（JAVA爬虫）

爬虫pythonjson（爬虫python和java）

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

网络爬虫java,网络爬虫技术

网络爬虫java,网络爬虫python代码

Java爬虫详解

java并发小说爬虫,java爬取小说

一个简单的java爬虫框架（java爬虫框架排行）

Java爬虫教程：从零开始实现爬虫程序

python爬虫学习5,python爬虫笔记

python爬虫之基础内容,python爬虫笔记

人机检测，请谅解