您的位置:

js爬虫修改代码(爬虫修改网页)

js爬虫修改代码(爬虫修改网页)

更新:

本文目录一览:

前端js爬虫?

纯粹前端的js 是不能 跨域 获取 cookie的

xxx.com 的js 代码 只能得到 xxx.com的cookie,拿不到 yyy.com

当然如果你有办法 在 yyy.com 写入受到自己控制的 html文件,你就可以写代码去拿到 对应的cookie,但看你的需求 应该你没有yyy.com 的权限

所以 要结合其他方案,推荐一下两种:

使用 electron ,electron 你可以认为是受js控制的浏览器引擎,所以你可以用它访问 yyy.com 拿到cookie,再接着做你的事情

或者 使用 puppeteer(Google 官方出品的 headless Chrome node 库)

Puppeteer 提供了一系列的 API,可以在无 UI 的情况下调用 Chrome 的各种功能,适用于爬虫、自动化处理等各种情景。

如何使用nodejs做爬虫程序

目标

抓取网站上的妹子照片。

第三方模块

superagent : 第三方Nodejs 模块,用于处理服务器和客户端的Http请求。

cheerio : 为服务器端定制的Jquery实现。

思路

通过superagent 获取目标网站的dom

通过cheerio对dom进行解析,获得通用布局。

如果只是爬取一个页面,则可以直接将目标页面的目标元素获取

如果是分页或者多个页面,可以通过循环获得目标链接,进行多次抓取。

实现

这里我们实现一个抓取网站妹子的照片。

目标网址: (对于该网站,并没有恶意攻击的意思.)

代码如下:

//引入第三方和通用模块

var fs = require('fs');//为了将抓取的图片存到本地,使用fs

var superagent = require('superagent');//引入superagent

var cheerio = require('cheerio');//引入jquery实现

 

var filePath = '/node/学习/sis/img/';//定义抓取妹子文件存放路径

var count = 0;//记录抓取数量

var test = [];

//抓取一个页面的实现。

var getOnePage = function(url){

    //因为煎蛋对请求做了限制,所以将cookie加上了。如果你要访问该网站的话,可以通过a href=";tn=44039180_cprfenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1d9n1DdmWFhuj-9P1c1nWwb0ZwV5Hcvrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3EPjRLP1msP1TzPjTYnj0vnjfd" target="_blank" class="baidu-highlight"浏览器/a查找cookie 并进行替换

    superagent.get(url)

    .set({

            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36'

    })

    .set('cookie','500322148=53; Hm_lvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454117846; Hm_lpvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454119909')

    .set({

        'accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'connection' : 'keep-alive',

        'host' : 'jandan.net'

    })

    .end(function(err,sres){//这里是对获取的dom进行处理

        if(err)throw err;

        var $ = cheerio.load(sres.text);

        var nextUrl = $('.previous-comment-page').attr('href');//获得下一页的链接,为了开始下一次请求

        $('img').each(function(index,ele){//循环该页面的所有图片并得到对应的链接,放进数组。

            var u = '';

            if($(ele).attr('org_src')){

                u = $(ele).attr('org_src');

            }else{

                u = $(ele).attr('src');    

            }

            test.push(u);

            //通过superagent 获取图片数据,并保存到本地。

            superagent.get(u).end(function(err,sres){

                if(err)throw err;

                //根据访问路径获得文件名称

                var ttt = u.split('/');

                var name = ttt[ttt.length-1];

                var path = filePath+name

                fs.writeFile(path,sres.body,function(){

                    count++;

                    console.log(u);

                    console.log('已成功抓取..'+count+'张');

                });

            });

        });

        if(null != nextUrl  '' != nextUrl){ //何时开始下一次请求

            getOnePage(nextUrl);

        }

    }); 

 

};

 

getOnePage('');//触发第一次请求开始

爬虫如何处理js动态

我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。

1、有些页面元素被隐藏起来了-换selector解决

2、有些数据保存在js/json对象中-截取对应的串,分析解决

3、通过api接口调用-伪造请求获得数据

还有一个终极方法

4、使用phantomjs或者casperjs这种headless浏览器

怎么动态修改js中代码?

这里只是片段,如果是一个封装起来的属性,是没法修改的,我们只能将它当做一个对象来修改后,再执行。如:

var a = {

   gConfig:{

       url:"1.jpg",

       id:"gameDiv",

       size:"4*4",

       margin:1,

       opacity:0.8

       }

};

那么修改url和opacity可以写为a.gConfig.url = 'newUrl';a.gConfig.opacity = 0.9;也可以直接修改a.gConfig = {}。

直接修改文档内容是不对的。

js爬虫修改代码(爬虫修改网页)

本文目录一览: 1、前端js爬虫? 2、如何使用nodejs做爬虫程序 3、爬虫如何处理js动态 4、怎么动态修改js中代码? 前端js爬虫? 纯粹前端的js 是不能 跨域 获取 cookie的xxx

2023-12-08
网络爬虫java,网络爬虫python代码

2023-01-06
java网络爬虫,爬虫Java

2022-11-29
java网络爬虫,爬虫 java

2023-01-06
爬虫pythonjson(爬虫python和java)

本文目录一览: 1、Python爬虫笔记(二)requests模块get,post,代理 2、Python爬虫(七)数据处理方法之JSON 3、Python与爬虫有什么关系? Python爬虫笔记(二

2023-12-08
js爬虫嵌入网页(js爬取网页)

本文目录一览: 1、js爬虫如何实现网页数据抓取 2、js的网页爬虫爬不到吗 3、前端js爬虫? 4、怎么用python爬虫爬取可以加载更多的网页 5、如何爬取js加载后的页面显示内容 6、如果网页内

2023-12-08
java爬虫,java爬虫代码

2023-01-09
网络爬虫java,网络爬虫技术

2022-12-02
java爬虫(java爬虫和python爬虫)

2022-11-15
python爬虫二,python爬虫二级页面

2022-11-18
java爬虫,java爬虫与python爬虫的区别

2022-11-27
js爬取网页内容(java爬虫爬取网页内容)

本文目录一览: 1、如果网页内容是由javascript生成的,应该怎么实现爬虫 2、怎么爬取网页的动态内容,很多都是js动态生成的内容o 3、怎么爬取网页的动态内容,很多都是js动态生 4、如何爬取

2023-12-08
python爬虫环境与爬虫介绍(python爬虫开发环境)

2022-11-12
python爬虫之字体反爬虫(用python写爬虫)

2022-11-14
python之js反爬,js反爬虫

2022-11-24
java爬虫系列第五讲(JAVA爬虫)

2022-11-12
python爬虫请求头设置代码(爬虫请求头怎么写)

2022-11-10
爬虫java,爬虫java框架

2023-01-09
python爬虫解析js,python爬虫解析工具

本文目录一览: 1、如何用python爬虫直接获取被js修饰过的网页Elements? 2、如何用Python爬虫抓取JS动态筛选内容 3、Python爬虫在处理由Javascript动态生成的页面时

2023-12-08
java实现网页爬虫的示例讲解(java爬虫爬取网页内容)

2022-11-14