python爬取用户微博id号,python爬微博数据

本文目录一览：

1、如何通过python调用新浪微博的API来爬取数据
2、怎样用python爬新浪微博大V所有数据
3、如何用python抓微博数据

如何通过python调用新浪微博的API来爬取数据

1：安装python(这个不多说啦)

2：下载新浪微博SDK的python包，解压为weibopy目录

3：申请AppKey，

流程：

1：通过oAuth认证

按我的理解简化如下：

用户在新浪微博给的页面输入账号密码，然后微博给应用一个PIN码，这样应用通过PIN码才有权限访问该用户的信息，而应用在整个过程中是接触不到密码的，所以用户觉得很安全，后果很满意

2：获得认证之后，就可以使用微博SDK提供的API获得信息啦

3：如果想设计web或者客户端应用的话，那就继续加个GUI好啦(未完成)

代码：

#!/usr/bin/python

import webbrowser

from weibopy.auth import OAuthHandler

from weibopy.api import API

AppKey = '2525355147'

AppSecret = '2e2c7bcdfc362eace266d1f2bf83fe6b'

my_auth = OAuthHandler(AppKey , AppSecret)

webbrowser.open(my_auth.get_authorization_url())

verifier = raw_input('PIN: ').strip()

my_auth.get_access_token(verifier)

my_api = API(my_auth)

for comment in my_api.mentions():

object = comment

id = object.__getattribute__("id")

text = object.__getattribute__("text")

print str(id) + " : " + text

怎样用python爬新浪微博大V所有数据

先上结论，通过公开的api如果想爬到某大v的所有数据，需要满足以下两个条件：

1、在你的爬虫开始运行时，该大v的所有微博发布量没有超过回溯查询的上限，新浪是2000，twitter是3200。

2、爬虫程序必须不间断运行。

新浪微博的api基本完全照搬twitter，其中接口的参数特性与底层的NoSQL密不可分，建议先看点Nosql数据库的设计理念有助于更好的理解api设计。

一般来说，如果决定爬某个大v，第一步先试获取该用户的基本信息，中间会包含一条最新的status，记下其中的id号作为基准，命名为baseId。

接口中最重要的两个参数：

since_id：返回ID比since_id大的微博（即比since_id时间晚的微博），默认为0。

max_id：返回ID小于或等于max_id的微博，默认为0。

出于各种原因，获取statuses的接口，固定为按id降序排列（scan_index_forward=false），即最新的statuses返回在前。假设该微博第一天上线，就一个用户，发了一百条，id是1到100。而你在该用户发了第50条的时候开始运行的爬虫，即baseId=50。

假设按每次获取10条历史数据递归，先将max_id设为baseId，获取该用户id为41－50的微博，再将max_id设为41重复循环，直到返回微博数量为1或0。这步没有问题。

获取用户最新的statuses就有些蛋疼了，since_id＝50，同样获取10条数据，返回的并不是id值为51－60的数据，而是100-91的数据。简单说就是你没法从since_id逐步更新到用户当前status，而是得一口气从用户当前status更新到上次爬虫运行时得到的最后一条status。假设你的爬虫一个月才运行一次，该用户在这期间发了2300条微博，根据限制你只能更新2000条，这其中最老的300条在你的系统内就会出现“断档”。

最后一条，以上只针对公开的api，stackoverflow上twitter

API可以申请权限突破数量限制和更改排序机制，微博也应该有类似机制。

如何用python抓微博数据

用Python写爬虫爬取微博数据的思路如下：

1、用base64加密用户名之后仿造一个预登陆，用正则匹配得到各项参数。

2、用上一步里得到的参数，拼接密码明文，再用RSA加密得到密文，并构造POST的form data。

3、使用构造好的form data仿造登录请求

4、用正则匹配获得跳转的目标链接。

5、为了保持登陆，用cookiejar一类的工具绑定一个cookie就行了。

推荐学习《Python教程》。

python爬取用户微博id号,python爬微博数据

2022-11-18

csjs118的微博（微博11）

本文目录一览： 1、怎么爬取新浪微博当前页面的内容 2、第三方分享插件，常见的分享到空间，微博等页面。求附带的js代码及分享页面 3、新浪微博的图片不能放大，怎么回事？ 4、怎么用cmd新建cs.js

2023-12-08

python爬取img（Python爬取网易云音乐）

2022-11-10

python链家小区id获取（python爬链家小区房源数据

2022-11-08

Python网站爬取工具

2023-05-10

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python爬取用户微博id号,python爬微博数据

本文目录一览：

如何通过python调用新浪微博的API来爬取数据

怎样用python爬新浪微博大V所有数据

如何用python抓微博数据

python爬取用户微博id号,python爬微博数据

python爬取微博博主的博文（爬虫抓取微博内容）

python微博爬虫编写（微博数据爬取代码）

用Python爬取微博评论

用Python爬取微博评论

python微博数据,python微博情感分析

包含python实现爬取马云的微博的词条

python发微博升级版（python自动发微博）

python数据分析微博热门（基于python的微博数据采集

python菜鸟教程的微博（python 爬虫微博）

Python实现基于Selenium的模拟登陆微博并爬取数据

趣味python的微博,python趣味代码

python调用新浪api爬虫的简单介绍

java调用新浪微博（新浪微博java版）

python爬取萌妹子图片,python 爬取图片

python爬取图片脚本,Python爬虫爬取图片

csjs118的微博（微博11）

python爬取img（Python爬取网易云音乐）

python链家小区id获取（python爬链家小区房源数据

Python网站爬取工具

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python爬取用户微博id号,python爬微博数据

本文目录一览：

如何通过python调用新浪微博的API来爬取数据

怎样用python爬新浪微博大V所有数据

如何用python抓微博数据

python爬取用户微博id号,python爬微博数据

python爬取微博博主的博文（爬虫抓取微博内容）

python微博爬虫编写（微博数据爬取代码）

用Python爬取微博评论

用Python爬取微博评论

python微博数据,python微博情感分析

包含python实现爬取马云的微博的词条

python发微博升级版（python自动发微博）

python数据分析微博热门（基于python的微博数据采集

python菜鸟教程的微博（python 爬虫 微博）

Python实现基于Selenium的模拟登陆微博并爬取数据

趣味python的微博,python趣味代码

python调用新浪api爬虫的简单介绍

java调用新浪微博（新浪微博java版）

python爬取萌妹子图片,python 爬取图片

python爬取图片脚本,Python爬虫爬取图片

csjs118的微博（微博11）

python爬取img（Python爬取网易云音乐）

python链家小区id获取（python爬链家小区房源数据

Python网站爬取工具

人机检测，请谅解

python菜鸟教程的微博（python 爬虫微博）