爬虫java,爬虫JavascriptvoidO

本文目录一览：

1、北大青鸟java培训：Java多线程爬虫实现？
2、java适合写爬虫吗？
3、如何用Java写一个爬虫
4、java爬虫长时间无返回
5、Java网络爬虫怎么实现？
6、java爬虫抓取指定数据

北大青鸟java培训：Java多线程爬虫实现？

一、需求 1.定时抓取固定网站新闻标题、内容、发表时间和来源。

2.程序需要支持分布式、多线程二、设计 1.网站是固定，但是未来也可能添加新的网站去抓取，每个网站内容节点设计都不一样，这样就需要支持动态可配置来新增网站以方便未来的扩展，这样就需要每次都需要开发介入。

2.网站html节点的结构可能发生变化，所以也要支持提取节点可配置。

3.怎样支持分布式？暂时最简单的想法就是：多机器部署程序，还有新搞一台或者部署程序其中一台制作一个定时任务，定时开启每台机器应该抓取哪个网站，暂时不能支持同一个网站同时可以支持被多台机器同时抓取，这样会比较麻烦，要用到分布式队列。

所以暂时一个网站同时只会被单台机器抓取。

4.多线程，怎样多线程？多线程抓取我这边有两个实现：（1）一个线程抓取一个网站，维护一个自己的url队列做广度抓取，同时抓取多个网站。

如图：（2）多个线程同时抓取不同的网站。

如图：以上两张办法其实各有优点，也给有缺点，看我们怎么取舍了。

方法1：每个线程创建一个自己的队列，图中的queue可以不用concurrentQueue，优点：不涉及到控制并发，每个网站一个线程抓取一个网站，抓取完毕即自动回收销毁线程。

控制方便。

缺点：线程数不可以扩展，例如当只有3个网站，你最多只能开3个线程来抓取，不能开更多，有一定的局限性。

方法2：N个线程同时抓取N个网站，线程数和网站数目不挂钩，优点：线程数可以调整并且和和抓取网站数量无关。

3个网站我们可以开4个5个或者10个这个可以根据您的硬件资源进行调整。

缺点：需要控制并发，并且要控制什么时候销毁线程（thread1空闲，并且queue为空不代表任务可以结束，可能thread2结果还没返回），当被抓取的网站响应较慢时，会拖慢整个爬虫进度。

三、实现抓取方式最终还是选择了方法二，因为线程数可配置！使用技术： jfinal用了之后才发现这东西不适合，但是由于项目进度问题，还是使用了。

maven项目管理 jettyserver mysql eclipse开发项目需要重点攻破的难点：（1）合理的控制N个线程正常的抓取网站，并且当所有线程工作都完成了并且需要抓取的队列为空时，N个线程同时退出销毁。

（2）不同网站设计节点不一样，需要通过配置解决各个网站需要抓取的URL和抓取节点内容在html节点的位置。

（3）个性化内容处理，由于html结构设计问题，北大青鸟认为抓取的内容可能有些多余的html标签，或者多余的内容该怎么处理。

爬虫java,爬虫JavascriptvoidO

java适合写爬虫吗？

JAVA也可以实现爬虫，比如jsoup包，一个非常方便解析html的工具呢。

不过相对来说，java语言笨重，稍微有些麻烦。

如何用Java写一个爬虫

import java.io.File;

import java.net.URL;

import java.net.URLConnection;

import java.nio.file.Files;

import java.nio.file.Paths;

import java.util.Scanner;

import java.util.UUID;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class DownMM {

public static void main(String[] args) throws Exception {

//out为输出的路径,注意要以\\结尾

String out = "D:\\JSP\\pic\\java\\";

try{

File f = new File(out);

if(! f.exists()) {

f.mkdirs();

}

}catch(Exception e){

System.out.println("no");

}

String url = "-";

Pattern reg = Pattern.compile("img src=\"(.*?)\"");

for(int j=0, i=1; i=10; i++){

URL uu = new URL(url+i);

URLConnection conn = uu.openConnection();

conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko");

Scanner sc = new Scanner(conn.getInputStream());

Matcher m = reg.matcher(sc.useDelimiter("\\A").next());

while(m.find()){

Files.copy(new URL(m.group(1)).openStream(), Paths.get(out + UUID.randomUUID() + ".jpg"));

System.out.println("已下载:"+j++);

}

java爬虫长时间无返回

可能是代码异常。

写代码总是会出异常的，尤其是爬虫这类程序，无法确保每次请求都能稳定地返回统一的结果，比如反爬虫策略提升代理IP超时程序异常等等，处理好这些问题，才能保证爬虫程序持续地运行下去，反爬虫策略，超时设置网络总是不会一如既往的稳定如一，可能代理IP某个时间不稳定，也可能目标服务器某个时间不稳定，还有自身机器的网络也可能不稳定，如果不设置好超时，程序也不好跑下去。

Java网络爬虫怎么实现？

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。

以下是一个使用java实现的简单爬虫核心代码：

public void crawl() throws Throwable {

while (continueCrawling()) {

CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL

if (url != null) {

printCrawlInfo();

String content = getContent(url); //获取URL的文本信息

//聚焦爬虫只爬取与主题内容相关的网页，这里采用正则匹配简单处理

if (isContentRelevant(content, this.regexpSearchPattern)) {

saveContent(url, content); //保存网页至本地

//获取网页内容中的链接，并放入待爬取队列中

Collection urlStrings = extractUrls(content, url);

addUrlsToUrlQueue(url, urlStrings);

} else {

System.out.println(url + " is not relevant ignoring ...");

}

//延时防止被对方屏蔽

Thread.sleep(this.delayBetweenUrls);

}

closeOutputStream();

}

private CrawlerUrl getNextUrl() throws Throwable {

CrawlerUrl nextUrl = null;

while ((nextUrl == null) (!urlQueue.isEmpty())) {

CrawlerUrl crawlerUrl = this.urlQueue.remove();

//doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的"Robot.txt"中配置的规则进行爬取

//isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap

//isDepthAcceptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免

if (doWeHavePermissionToVisit(crawlerUrl)

(!isUrlAlreadyVisited(crawlerUrl))

isDepthAcceptable(crawlerUrl)) {

nextUrl = crawlerUrl;

// System.out.println("Next url to be visited is " + nextUrl);

}

return nextUrl;

}

private String getContent(CrawlerUrl url) throws Throwable {

//HttpClient4.1的调用与之前的方式不同

HttpClient client = new DefaultHttpClient();

HttpGet httpGet = new HttpGet(url.getUrlString());

StringBuffer strBuf = new StringBuffer();

HttpResponse response = client.execute(httpGet);

if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {

HttpEntity entity = response.getEntity();

if (entity != null) {

BufferedReader reader = new BufferedReader(

new InputStreamReader(entity.getContent(), "UTF-8"));

String line = null;

if (entity.getContentLength() 0) {

strBuf = new StringBuffer((int) entity.getContentLength());

while ((line = reader.readLine()) != null) {

strBuf.append(line);

}

if (entity != null) {

nsumeContent();

}

//将url标记为已访问

markUrlAsVisited(url);

return strBuf.toString();

}

public static boolean isContentRelevant(String content,

Pattern regexpPattern) {

boolean retValue = false;

if (content != null) {

//是否符合正则表达式的条件

Matcher m = regexpPattern.matcher(content.toLowerCase());

retValue = m.find();

}

return retValue;

}

public List extractUrls(String text, CrawlerUrl crawlerUrl) {

Map urlMap = new HashMap();

extractHttpUrls(urlMap, text);

extractRelativeUrls(urlMap, text, crawlerUrl);

return new ArrayList(urlMap.keySet());

}

private void extractHttpUrls(Map urlMap, String text) {

Matcher m = (text);

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href=\"");

for (String term : terms) {

// System.out.println("Term = " + term);

if (term.startsWith("http")) {

int index = term.indexOf("\"");

if (index 0) {

term = term.substring(0, index);

}

urlMap.put(term, term);

System.out.println("Hyperlink: " + term);

}

private void extractRelativeUrls(Map urlMap, String text,

CrawlerUrl crawlerUrl) {

Matcher m = relativeRegexp.matcher(text);

URL textURL = crawlerUrl.getURL();

String host = textURL.getHost();

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href=\"");

for (String term : terms) {

if (term.startsWith("/")) {

int index = term.indexOf("\"");

if (index 0) {

term = term.substring(0, index);

}

String s = //" + host + term;

urlMap.put(s, s);

System.out.println("Relative url: " + s);

}

public static void main(String[] args) {

try {

String url = "";

Queue urlQueue = new LinkedList();

String regexp = "java";

urlQueue.add(new CrawlerUrl(url, 0));

NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,

regexp);

// boolean allowCrawl = crawler.areWeAllowedToVisit(url);

// System.out.println("Allowed to crawl: " + url + " " +

// allowCrawl);

crawler.crawl();

} catch (Throwable t) {

System.out.println(t.toString());

t.printStackTrace();

}

java爬虫抓取指定数据

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取图片的流程和爬取内容的流程基本相同，但是爬取图片的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

爬虫pythonjson（爬虫python和java）

本文目录一览： 1、Python爬虫笔记（二）requests模块get，post，代理 2、Python爬虫（七）数据处理方法之JSON 3、Python与爬虫有什么关系？ Python爬虫笔记（二

2023-12-08

java爬虫,java爬虫与python爬虫的区别

2022-11-27

java网络爬虫,爬虫 java

2023-01-06

java网络爬虫,爬虫Java

2022-11-29

简单java爬虫,java爬虫程序

2022-11-20

jspider纯java爬虫（java实现爬虫）

本文目录一览： 1、在Java爬虫中使用Spider应该怎样初始化? 2、java 网络爬虫怎么实现 3、常用的java蜘蛛有哪些？在Java爬虫中使用Spider应该怎样初始化? Java的属性初

2023-12-08

java爬虫系列第五讲（JAVA爬虫）

2022-11-12

网络爬虫java,网络爬虫技术

2022-12-02

网络爬虫java,网络爬虫python代码

2023-01-06

Java爬虫详解

2023-05-19

python爬虫学习5,python爬虫笔记

2022-11-20

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

2022-11-14

一个简单的java爬虫框架（java爬虫框架排行）

2022-11-16

java并发小说爬虫,java爬取小说

2022-11-23

python爬虫之基础内容,python爬虫笔记

2022-11-21

python爬虫二,python爬虫二级页面

2022-11-18

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

爬虫java,爬虫JavascriptvoidO

本文目录一览：

北大青鸟java培训：Java多线程爬虫实现？

java适合写爬虫吗？

如何用Java写一个爬虫

java爬虫长时间无返回

Java网络爬虫怎么实现？

java爬虫抓取指定数据

爬虫java,爬虫JavascriptvoidO

java爬虫（java爬虫和python爬虫）

java爬虫,java爬虫代码

爬虫java,爬虫java框架

爬虫pythonjson（爬虫python和java）

java爬虫,java爬虫与python爬虫的区别

java网络爬虫,爬虫 java

java网络爬虫,爬虫Java

简单java爬虫,java爬虫程序

jspider纯java爬虫（java实现爬虫）

java爬虫系列第五讲（JAVA爬虫）

网络爬虫java,网络爬虫技术

网络爬虫java,网络爬虫python代码

Java爬虫详解

python爬虫学习5,python爬虫笔记

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

一个简单的java爬虫框架（java爬虫框架排行）

java并发小说爬虫,java爬取小说

python爬虫之基础内容,python爬虫笔记

python爬虫二,python爬虫二级页面

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

爬虫java,爬虫JavascriptvoidO

本文目录一览：

北大青鸟java培训：Java多线程爬虫实现？

java适合写爬虫吗？

如何用Java写一个爬虫

java爬虫 长时间无返回

Java网络爬虫怎么实现？

java爬虫抓取指定数据

爬虫java,爬虫JavascriptvoidO

java爬虫（java爬虫和python爬虫）

java爬虫,java爬虫代码

爬虫java,爬虫java框架

爬虫pythonjson（爬虫python和java）

java爬虫,java爬虫与python爬虫的区别

java网络爬虫,爬虫 java

java网络爬虫,爬虫Java

简单java爬虫,java爬虫程序

jspider纯java爬虫（java实现爬虫）

java爬虫系列第五讲（JAVA爬虫）

网络爬虫java,网络爬虫技术

网络爬虫java,网络爬虫python代码

Java爬虫详解

python爬虫学习5,python爬虫笔记

java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

一个简单的java爬虫框架（java爬虫框架排行）

java并发小说爬虫,java爬取小说

python爬虫之基础内容,python爬虫笔记

python爬虫二,python爬虫二级页面

人机检测，请谅解

java爬虫长时间无返回