本文目录一览:
- 1、前端js爬虫?
- 2、如何使用nodejs做爬虫程序
- 3、爬虫如何处理js动态
- 4、怎么动态修改js中代码?
前端js爬虫?
纯粹前端的js 是不能 跨域 获取 cookie的
xxx.com 的js 代码 只能得到 xxx.com的cookie,拿不到 yyy.com
当然如果你有办法 在 yyy.com 写入受到自己控制的 html文件,你就可以写代码去拿到 对应的cookie,但看你的需求 应该你没有yyy.com 的权限
所以 要结合其他方案,推荐一下两种:
使用 electron ,electron 你可以认为是受js控制的浏览器引擎,所以你可以用它访问 yyy.com 拿到cookie,再接着做你的事情
或者 使用 puppeteer(Google 官方出品的 headless Chrome node 库)
Puppeteer 提供了一系列的 API,可以在无 UI 的情况下调用 Chrome 的各种功能,适用于爬虫、自动化处理等各种情景。
如何使用nodejs做爬虫程序
目标
抓取网站上的妹子照片。
第三方模块
superagent : 第三方Nodejs 模块,用于处理服务器和客户端的Http请求。
cheerio : 为服务器端定制的Jquery实现。
思路
通过superagent 获取目标网站的dom
通过cheerio对dom进行解析,获得通用布局。
如果只是爬取一个页面,则可以直接将目标页面的目标元素获取
如果是分页或者多个页面,可以通过循环获得目标链接,进行多次抓取。
实现
这里我们实现一个抓取网站妹子的照片。
目标网址: (对于该网站,并没有恶意攻击的意思.)
代码如下:
//引入第三方和通用模块
var fs = require('fs');//为了将抓取的图片存到本地,使用fs
var superagent = require('superagent');//引入superagent
var cheerio = require('cheerio');//引入jquery实现
var filePath = '/node/学习/sis/img/';//定义抓取妹子文件存放路径
var count = 0;//记录抓取数量
var test = [];
//抓取一个页面的实现。
var getOnePage = function(url){
//因为煎蛋对请求做了限制,所以将cookie加上了。如果你要访问该网站的话,可以通过a href=";tn=44039180_cprfenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1d9n1DdmWFhuj-9P1c1nWwb0ZwV5Hcvrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3EPjRLP1msP1TzPjTYnj0vnjfd" target="_blank" class="baidu-highlight"浏览器/a查找cookie 并进行替换
superagent.get(url)
.set({
'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36'
})
.set('cookie','500322148=53; Hm_lvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454117846; Hm_lpvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454119909')
.set({
'accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'connection' : 'keep-alive',
'host' : 'jandan.net'
})
.end(function(err,sres){//这里是对获取的dom进行处理
if(err)throw err;
var $ = cheerio.load(sres.text);
var nextUrl = $('.previous-comment-page').attr('href');//获得下一页的链接,为了开始下一次请求
$('img').each(function(index,ele){//循环该页面的所有图片并得到对应的链接,放进数组。
var u = '';
if($(ele).attr('org_src')){
u = $(ele).attr('org_src');
}else{
u = $(ele).attr('src');
}
test.push(u);
//通过superagent 获取图片数据,并保存到本地。
superagent.get(u).end(function(err,sres){
if(err)throw err;
//根据访问路径获得文件名称
var ttt = u.split('/');
var name = ttt[ttt.length-1];
var path = filePath+name
fs.writeFile(path,sres.body,function(){
count++;
console.log(u);
console.log('已成功抓取..'+count+'张');
});
});
});
if(null != nextUrl '' != nextUrl){ //何时开始下一次请求
getOnePage(nextUrl);
}
});
};
getOnePage('');//触发第一次请求开始
爬虫如何处理js动态
我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。
1、有些页面元素被隐藏起来了-换selector解决
2、有些数据保存在js/json对象中-截取对应的串,分析解决
3、通过api接口调用-伪造请求获得数据
还有一个终极方法
4、使用phantomjs或者casperjs这种headless浏览器
怎么动态修改js中代码?
这里只是片段,如果是一个封装起来的属性,是没法修改的,我们只能将它当做一个对象来修改后,再执行。如:
var a = {
gConfig:{
url:"1.jpg",
id:"gameDiv",
size:"4*4",
margin:1,
opacity:0.8
}
};
那么修改url和opacity可以写为a.gConfig.url = 'newUrl';a.gConfig.opacity = 0.9;也可以直接修改a.gConfig = {}。
直接修改文档内容是不对的。