您的位置:

python数据分析微博热门(基于python的微博数据采集)

本文目录一览:

怎么利用python或R分析我的微博或者朋友圈

一. 你在浏览微博的时候,受到哪些用户的影响。

1. 抓取你微博的关注列表,通过一定的条件筛选一部分用户,继续抓他们的关注列表,这样抓两到三层就行了,不然数据太大了。

2. 对抓取的用户进行影响力建模,例如,用户最近两个月的微博的转发评论和点赞数据

3. 最后分析出哪些用户对你的影响最大

二. 基于地理位置的分析

1. 抓取以某个城市为发微博的地理位置的微博数据,并且抓取发微博的用户的相关信息

2. 对数据清洗,通过用户资料筛选出是否土著居民,还是旅游出差之类的数据

3. 对数据分析,通过发微博的时间啊,某个地点发微博的次数啊,发微博出现最多的关键词

这些应该能得到一些有意思的数据

三. 自然语言处理

微博的大量的文本数据可以做自然语言处理,情感分析之类的很多研究

四. 热点事件追踪

1. 通过关键词的搜索,跟踪热点事件

2. 很多热点事情都是某个微博开始发酵的,可以抓取转发路径,找出哪些是重要的转发节点,

抓取评论内容,看看网友对这件事情的态度。

3. 监控微博博主的粉丝增加数量的变化

五. 计算机视觉相关研究

1. 抓取微博出现的图片,做计算视觉相关的研究

2. 抓取微博用户的头像,做人脸识别之类的,应该很有意思。

六. 个人微博数据分析

1. 发微博时间

2. 微博出现的关键词

3. 你点过哪些赞,评论过哪些微博。

4. 和哪些人发过私信,这些都可以研究,关键是找到合适的模型

我要做一个基于Python的微博数据抓取和用户特征分析系统开发如何做?爱乐惠

我曾经曾经有做这方面东西的想法,微博API的单位时间调用次数限制成了最大的障碍,至于你想通过爬虫大量爬网页抓取微博信息,我估计微博的安审力量不会那么差。再就是微博HTML页面的数据限制量本来就比较小。最后就是微博现在已经没有市场价值了,大多数人都已经不用微博了。

爬虫实战3:用微博大数据带你看《乘风破浪的姐姐》

今年上半年最火的综艺非《乘风破浪的姐姐》(简称浪姐)莫属,要不是赶上热搜整改,目测第一期播出后都爆好几个热搜了。不得不说,姐姐们的业务能力真的可!感觉比小白花们的选秀有意思多了~

看看钟丽缇、伊能静这两位五十多岁的姐姐,身材好,保养佳,能唱能跳,完全看不出岁月在她们身上留下的痕迹,冻龄美人不是吹的!看到她们,就觉得每一种年龄都有自己的精彩,好像也没那么害怕变老了呢。别人的50岁,活的比我们的25岁还美丽!

话不多说,接下来,我想通过微博相关数据对姐姐们进行一次简单的分析,顺带聊一聊我对各位姐姐们的初印象。

自从攻破了 豆瓣 、 拉勾 和链家的(基础)爬虫,我的爬虫魔爪又伸向了微博。这次,我主要爬取了30位小姐姐们的微博个人主页信息和2019年以来的微博内容以及每条微博相对应的转赞评数据,尝试通过微博数据分析《乘风破浪》这个节目对小姐姐们的影响。

数据来源时间:2020年06月17日22:00

爬取的信息包括:

根据爬取数据时各位姐姐的微博粉丝数量级,我将姐姐们分为了三级梯队,毕竟以流量粉丝的视角,微博粉丝数的多少就是人气高低的象征。

位列第一梯队的一共有5位姐姐,这5位姐姐可谓是断层式人气,因为第二梯队的上限只有1100w,比第一梯队的下限还少500w。

下面我就以我常年出入各大论坛娱乐版块的经验聊聊我对这些姐姐们的初印象。

其中人气王是主持人出身的吴昕,粉丝量高达3800w!我对吴昕的印象是:湖南卫视强捧的主持人(又想起来当年看芒果主持人大赛时我还是杜海涛的粉丝)、跟潘玮柏组了一个很火的CP叫“无尾熊”、在黄磊那部《深夜食堂》里的演技超尬、在闲鱼上把钟汉良送她的礼物挂出来低价转卖......

个人对她无感(偏负面)。

然后是黄圣依(演员、歌手)和王丽坤(演员),这两位的人气是我没想到的,可能我多少低估了星女郎的实力吧,我对黄圣依的印象是:《功夫》里美的令人惊艳、《红苹果乐园》里虽然尖酸刻薄但颜值吊打女主不知道为何F5大男孩们没一个看上她的校花、老公是“不信抬头看,苍天绕过谁”的鞋拔杨(她真的是这些年来高调的十分突出的三了)、海娃死了吗咯咯咯咯咯咯哒......以及,我小时候分不清她和刘亦菲。

整体印象:负面。

我对王丽坤的印象是:不熟,貌似跟吴亦凡演过一部我没看过的剧,还有就是很早之前上综艺时有一张跳水照片挺火的,号称”素颜女神“,整体印象:无感。

再然后是伊能静(歌手、演员)和宁静(演员)两位娱乐圈老前辈。对伊能静,知道一个冷知识就是,她姓伊能。我没怎么听过她的歌,但印象中挺有才华,出过书(文笔不错)、演过剧,还有就是跟哈林爱情长跑很多年以后离婚,我对当年发布的新闻标题印象很深,是”伊能静牵手黄维德“,被媒体拍到后曝光,在当年娱乐圈里也是一则震惊的新闻了,谁能想到最后她却跟秦昊结了婚呢。

整体印象:无感。

最后是宁静 ,她在《阳光灿烂的日子》里饰演的米兰、在《孝庄秘史》里饰演的大玉儿都是非常深入人心的角色,还有《黄河绝恋》、《大宅门》等一系列家喻户晓的作品,咖位没的说。不过近年来她被讨论的最多的反而是她在综艺上的表现,在《花儿与少年》里她以耿直著称,后来我看一些采访也觉得特别好笑,最经典的名场面当属下面这段:

简直笑到我锤墙233333静姐你会说话就多说点,最好再出一本书!

整体印象:正面。

位列第二梯队的一共有11位姐姐,这里面我比较熟的只有金莎、张雨绮和张含韵,勉强加一个选秀系出来的郁可唯。

金莎在《十八岁的天空》里饰演的蓝菲琳,就是我心目中小说里的校花范本,让我想起初中那会儿, 在贴吧追石延枫x蓝菲琳的同人文追的不亦乐乎 。她出道时顶着林俊杰小师妹的名号,一首《被风吹过的夏天》几乎成为了我对学生时代美好夏日的最佳回忆。其实一直觉得她不火很可惜,当年演《神话》里的素素,收获一票人气,算是小爆了一阵,但最终还是没能火起来,哎,不得不说,娱乐圈确实是小火靠捧,大火靠命。

整体印象:正面。

再说张含韵的颜值,放现在101系里也绝对是超能打的水平,不说C位出道吧,作为门面担当肯定毫无压力。以前我对她印象不好,超女时期我是铁杆笔迷,那时网上铺天盖地都是她的负面新闻, 她可能算是第一代“全网黑”的爱豆了。 记得有些称呼什么的非常难听,年少无知的我都被这些消息洗脑成她的路人黑了。现在想想真的很不应该,听风就是雨的,仔细回忆一下泼的那些脏水似乎都没实锤,小姑娘当年真的受了不少委屈吧。

不过这事儿之后,广电对选秀节目选手年龄就做了年满18周岁的限制,那时她简直火到全国的中学女生都在模仿她的穿衣打扮的风格,满大街都在放“酸酸甜甜就是我”,无数少女幻想着成为下一个她。再后来我就没怎么关注她了,直到去年她参加声临其境,我有被她的台词和英文惊艳到,有一段是她和韩雪一起表演的,多重角色转换毫无压力,一口流利的口语发音也非常标准,哇,小姐姐真的太棒了吧!粉了粉了!

整体印象:负面转正面。

这两位甜姐,真的没法相信前者已经39岁,后者已经31岁了!完完全全女团标配啊!果然美丽的人,无论多少岁都还是美丽的。

最后说下绮绮子——张雨绮小姐姐。我对这姐的印象是:脾气火爆、超级刚、自嘲看男人的眼光有点差、前夫放着这么漂亮的老婆不要跑出去嫖娼真是脑子坏掉了、某次红毯上一袭绿色礼服美到挪不开眼、偷拍的抽烟生图也是美到无法呼吸、追她的人从这里排到法国、一克拉一下的戒指不要买,碎钻不值钱的、推荐爱马仕黑金好处是买菜方便......从这段来看,我对她的印象已经很明显了:非常喜欢!

另外,最近看到她当年被记者追问大小S婚礼的事情,那个老娘不屑理你的劲儿真的绝了,我也好想在面对不想回答的问题或者讨厌的人时,一个白眼翻上天!啊,谁能想到她那时候才23岁啊我的天,真的是天生一张御姐脸!

谁又能想到她身高只有166公分呢,明明气场一米八好吗!还有还有,她居然都是两个孩子的妈了!真的!不敢!相信!

位列第三梯队的一共有14位姐姐,大部分都不太熟悉,相对熟的只有被嘲“大嘴猴”(还是嘻悠猴?)的海陆、歌红人不红的丁当(《下一站幸福》里她的歌首首都是催泪神曲,我可太爱了)、演过玉漱的白冰、“浴室歌后”黄龄(同样歌红人不红)、前不久刚跟尚雯婕撕逼的许飞以及听过几首歌的朱婧汐和袁咏琳。

微博就是一个社交平台,明星之间也需要互相关注、平时有个新歌发布什么的也需要互相捧捧场,所以我想用微博关注数来衡量“热络”和“高冷”的程度,从关注数来看, TOP1居然是钟丽缇!关注了900多个用户!

原本我以为像吴昕这样的主持人应该排TOP1呢,毕竟她的前辈——号称娱乐圈人精(非贬义)的何炅老师可是关注了865人(天呐,钟丽缇关注的人比何炅还多)。 TOP2-5分别是张含韵、沈梦辰、金莎和黄龄 ,这几位当属(公开)人际圈活跃份子了。而 关注用户数最少的是许飞、张萌和孟佳 ,这三位堪称微博关系圈里最“高冷”的姐姐了。

姐姐们の初舞台评分

从评委的评分来看,姐姐们的微博人气跟评分几乎没有关系,但评分结果有些还是非常令人大跌眼镜的,比如金莎和丁当的评分,以及黄圣依的评分,我实在不能理解。

说到这里我又想骂杜华女士了,真替丁当觉得冤屈。 按杜女士的理论,只有废物最适合出道呗,因为可以衬托出其他人的厉害 ,真是呵呵?支持丁当!同时,支持静静子、支持钟丽缇怼她!

第一梯队

第一梯队的小姐姐们,不愧是组内流量担当,日常发微博评论5000+没问题,尤其是像吴昕这种属于活跃在娱乐圈里的主持人,时不时能来个评论高峰,这里面宁静和伊能静的评论数少一点,毕竟是中年女演员, 老牌演员本身就不是靠微博起家的,粉丝也是路人粉居多,而路人大概率是懒得发评论的 。

从走势来看,节目给姐姐们带来了一定的流量(人气),但即使是节目播出之前,也大多自带流量特质。

下面,就来看看姐姐们微博的流量高峰点都发了什么吧(以下内容为缩略版)。

吴昕那条评论3w+的微博,对应的是她的生日感言——

吴昕

2019年我过得挺好,挺自在,也挺努力[心]人随着年纪越大好像越知道如何找到自己的平衡点,这是我必须要给自己的一个大大的赞??  一眨眼就2020年了,我已经不想许愿了,长大了不信这一套了[偷笑] 过好属于自己的人生最重要,这是今年的,很短很短的,碎碎念新的一年,加油[耶][耶][耶] 

感觉是普通又亲切的小女生的生日感言呢~

大家比我着急[允悲][嘻嘻],还没,稍安勿躁哈    

王丽坤

不知道是什么,特意搜了下原博的评论,貌似是澄清她和林更新的绯闻?

宁静

我,宁静华夏儿女、炎黄子孙、土生土长中国人!!!此生唯一的父母之邦!!!背后唯一的祖国!!!中国!!!半秒都没变过!!!

部分网友说宁静是美国国籍,本人出来澄清。

姐不用抗老,因为姐根本不会老。姐不用冻龄,因为姐就是冰山。姐不用吃防腐剂,因为姐就是防腐剂。只要勇敢乘风破浪,任何时候,姐的52岁,也可以倒过来是25![赞啊][鲜花][心]@乘风破浪的姐姐 #伊能静[超话]##伊能静吃防腐剂#

伊能静

这位就很可爱了,还自带话题#伊能静吃防腐剂#

黄圣依

你只看到了我的八个箱子没看到我练舞流的一公升汗水你看到了我的两米大裙子没错,你很有眼光感谢你的注目这一次拼尽全力和我一起为梦而战!#乘风破浪的姐姐#

也是乘风破浪节目相关,有一说一,她穿那条裙子真的挺美。但是随便喝不熟的人的咖啡然后顺手还回去什么的,看起来还挺“公主病”,有点把人当丫鬟的感觉。

第二梯队

张雨绮5月的某条微博评论数一骑绝尘,没错,就是那条剪章鱼的视频,对某时间管理大师做出了暗搓搓(不,应该是明晃晃)的diss,让看的人大呼过瘾!这姐真的刚?用最甜的笑,下最狠的刀!

由于绮绮子一条微博拉高了整体上限阈值导致其他线条的起伏完全被压住而成为了一条直直的横线,加上线实在太多,我决定调整下Y轴范围并把第二梯队分成两组再重新画图。

第一小组,基本上每位小姐姐在今年的微博评论数波动都还比较大,不过明显节目播出后有个小高峰。

第二小组,整体上大的起伏出现在今年3月左右,除了张含韵在去年4月某条评论突破2w外。

张含韵

特殊时期无意占用公共资源,十分抱歉。单身未婚,只想过好自己的清净日子。请某些网络用户停止编造传播不实信息。谢谢。

关于她和郭麒麟的绯闻澄清,这个八卦我没太关注,就不细说了。感觉应该是八竿子打不着的俩人?娱乐圈真是什么都能传,记得节目里还有其他女明星问含韵MM本尊来着,看来明星平日里吃瓜也吃得挺溜,只要不是自家的瓜?。

第三梯队

跟张雨绮类似,第三梯队冲出一个许飞。对应的内容是上次在综艺上说尚雯婕跟大家不熟的那个事儿,当时确实挺火的,好多营销号都在扒超女中谁谁之前不合的往事。

第三梯队的两组就比较明显了, 评论激增都出现在节目播出后,节目给她们带来了极大的讨论度,也增加了她们的公众曝光量 。

第二组里,丁当评论超高的微博,就是公开质疑杜华选女团标准的那条,不光粉丝,路人网友都看不下去了,纷纷加入支持她声讨杜华的行列。

丁当

这次参加《乘风破浪的姐姐》,无论姐姐们抱着什么心态,本质上它仍是一次比赛,但当我听到获低分的理由竟然是“唱得太好了”,我和观众姐妹们一样也是满脸问号。(节选)

居然还有人推出”代骂“服务,真的笑死我。因为微博现在限制关注7天以上才能评论,所以就有网友承接”代骂“杜女士的业务?。

点赞10w+的内容

点赞破10w的,内容含乘风破浪关键词的微博如下:

以上就是从微博数据出发所呈现的内容了,我心想要是我会爬微博涨粉数据就好了,这样可以把每个姐姐在节目前后涨粉的数量做一个对比,能更直观地体现《乘风破浪》这个节目对姐姐人气的影响,可惜学艺不精,暂时无法做到这一步,以后慢慢学吧?。

单纯从唱歌来讲, 我pick蓝盈莹的《别找我麻烦》、宁静的《吻别前的那片海》和朱婧汐的《Cure》,张含韵的《wonderful U》也不错 。尤其是宁静,我是真的不知道她会唱歌,还唱的这么好听!这两天我还在b站刷到她唱《loving you》的视频,真的是绝了,真·海豚音,身材还贼好!

真心期待下一期节目!想看到可爱的姐姐们继续”兴风作浪“,看到端水大师小明伺候姑奶奶们罒ω罒

最后,私心为我的小雨姐姐疯狂打call,即使《粉红色的回忆》是她唯一一首能完整唱下来的歌,也请大家多多支持这个表面上看起来很御姐实际超级傻白甜的反差萌的虎妹子!绮绮子冲鸭!!!祝你如愿以偿,C位出道(手动比心)

ღ( ´・ᴗ・` )比心

python一键追星,爬取个人微博主页下的图片

怎样用python爬新浪微博大V所有数据

我是个微博重度用户,工作学习之余喜欢刷刷timeline看看有什么新鲜事发生,也因此认识了不少高质量的原创大V,有分享技术资料的,比如好东西传送门;有时不时给你一点人生经验的,比如石康;有高产的段子手,比如银教授;有黄图黄段子小能手,比如阿良哥哥 木木萝希木 初犬饼…

好吧,我承认,爬黄图黄段子才是我的真实目的,前三个是掩人耳目的…(捂脸,跑开)

另外说点题外话,我一开始想使用Sina Weibo API来获取微博内容,但后来发现新浪微博的API限制实在太多,大家感受一下:

只能获取当前授权的用户(就是自己),而且只能返回最新的5条,WTF!

所以果断放弃掉这条路,改为『生爬』,因为PC端的微博是Ajax的动态加载,爬取起来有些困难,我果断知难而退,改为对移动端的微博进行爬取,因为移动端的微博可以通过分页爬取的方式来一次性爬取所有微博内容,这样工作就简化了不少。

最后实现的功能:

输入要爬取的微博用户的user_id,获得该用户的所有微博

文字内容保存到以%user_id命名文本文件中,所有高清原图保存在weibo_image文件夹中

具体操作:

首先我们要获得自己的cookie,这里只说chrome的获取方法。

用chrome打开新浪微博移动端

option+command+i调出开发者工具

点开Network,将Preserve log选项选中

输入账号密码,登录新浪微博

找到m.weibo.cn-Headers-Cookie,把cookie复制到代码中的#your cookie处

cookie

然后再获取你想爬取的用户的user_id,这个我不用多说啥了吧,点开用户主页,地址栏里面那个号码就是user_id

将python代码保存到weibo_spider.py文件中

定位到当前目录下后,命令行执行python weibo_spider.py user_id

当然如果你忘记在后面加user_id,执行的时候命令行也会提示你输入

最后执行结束

iTerm

小问题:在我的测试中,有的时候会出现图片下载失败的问题,具体原因还不是很清楚,可能是网速问题,因为我宿舍的网速实在太不稳定了,当然也有可能是别的问题,所以在程序根目录下面,我还生成了一个userid_imageurls的文本文件,里面存储了爬取的所有图片的下载链接,如果出现大片的图片下载失败,可以将该链接群一股脑导进迅雷等下载工具进行下载。

另外,我的系统是OSX EI Capitan10.11.2,Python的版本是2.7,依赖库用sudo pip install XXXX就可以安装,具体配置问题可以自行stackoverflow,这里就不展开讲了。

下面我就给出实现代码(严肃脸)

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

   

#-*-coding:utf8-*-

import re

import string

import sys

import os

import urllib

import urllib2

from bs4 import BeautifulSoup

import requests

from lxml import etree

reload(sys)

sys.setdefaultencoding('utf-8')

if(len(sys.argv) =2):

user_id = (int)(sys.argv[1])

else:

user_id = (int)(raw_input(u"请输入user_id: "))

cookie = {"Cookie": "#your cookie"}

url = 'd?filter=1page=1'%user_id

html = requests.get(url, cookies = cookie).content

selector = etree.HTML(html)

pageNum = (int)(selector.xpath('//input[@name="mp"]')[0].attrib['value'])

result = ""

urllist_set = set()

word_count = 1

image_count = 1

print u'爬虫准备就绪...'

for page in range(1,pageNum+1):

#获取lxml页面

url = 'hu/%d?filter=1page=%d'%(user_id,page)

lxml = requests.get(url, cookies = cookie).content

#文字爬取

selector = etree.HTML(lxml)

content = selector.xpath('//span[@class="ctt"]')

for each in content:

text = each.xpath('string(.)')

if word_count = 4:

text = "%d :"%(word_count-3) +text+"\n\n"

else :

text = text+"\n\n"

result = result + text

word_count += 1

#图片爬取

soup = BeautifulSoup(lxml, "lxml")

urllist = soup.find_all('a',href=re.compile(r'^mblog/oripic',re.I))

first = 0

for imgurl in urllist:

urllist_set.add(requests.get(imgurl['href'], cookies = cookie).url)

image_count +=1

fo = open("/Users/Personals/%s"%user_id, "wb")

fo.write(result)

word_path=os.getcwd()+'/%d'%user_id

print u'文字微博爬取完毕'

link = ""

fo2 = open("/Users/Personals/%s_imageurls"%user_id, "wb")

for eachlink in urllist_set:

link = link + eachlink +"\n"

fo2.write(link)

print u'图片链接爬取完毕'

if not urllist_set:

print u'该页面中不存在图片'

else:

#下载图片,保存在当前目录的pythonimg文件夹下

image_path=os.getcwd()+'/weibo_image'

if os.path.exists(image_path) is False:

os.mkdir(image_path)

x=1

for imgurl in urllist_set:

temp= image_path + '/%s.jpg' % x

print u'正在下载第%s张图片' % x

try:

urllib.urlretrieve(urllib2.urlopen(imgurl).geturl(),temp)

except:

print u"该图片下载失败:%s"%imgurl

x+=1

print u'原创微博爬取完毕,共%d条,保存路径%s'%(word_count-4,word_path)

print u'微博图片爬取完毕,共%d张,保存路径%s'%(image_count-1,image_path)

   

如何用python抓微博数据

用Python写爬虫爬取微博数据的思路如下:

1、用base64加密用户名之后仿造一个预登陆,用正则匹配得到各项参数。

2、用上一步里得到的参数,拼接密码明文,再用RSA加密得到密文,并构造POST的form data。

3、使用构造好的form data仿造登录请求

4、用正则匹配获得跳转的目标链接。

5、为了保持登陆,用cookiejar一类的工具绑定一个cookie就行了。

推荐学习《Python教程》。

python数据分析微博热门(基于python的微博数据采集

2022-11-10
python微博数据,python微博情感分析

2022-11-17
python微博爬虫编写(微博数据爬取代码)

2022-11-09
python发微博升级版(python自动发微博)

2022-11-09
用Python爬取微博评论

2023-05-10
python爬取用户微博id号,python爬微博数据

2022-11-18
python爬取微博博主的博文(爬虫抓取微博内容)

2022-11-11
用Python爬取微博评论

2023-05-10
Python狂魔的微博

Python狂魔的微博是一个以Python编程语言为中心的微博账号。在这个账号上,Python狂魔分享了大量有关Python的知识、技巧和实例,并与广大Python爱好者交流互动。下面将从多个方面对P

2023-12-08
python菜鸟教程的微博(python 爬虫 微博)

2022-11-10
cjjsszd的微博(微博cj是谁)

本文目录一览: 1、好用好看的笔 2、Trojan-Downloader.JS.Multi.cj木马总是杀不完 3、金山杀出的:JS.Agent.CJ病毒是什么东东? 4、弹弹堂CJ激活码怎么用?输在

2023-12-08
python数据分析学习笔记1(python数据分析基础和利

2022-11-09
Python实现基于Selenium的模拟登陆微博并爬取数据

2023-05-10
趣味python的微博,python趣味代码

2022-11-20
包含python实现爬取马云的微博的词条

2022-11-15
csjs118的微博(微博11)

本文目录一览: 1、怎么爬取新浪微博当前页面的内容 2、第三方分享插件,常见的分享到空间,微博等页面。求附带的js代码及分享页面 3、新浪微博的图片不能放大,怎么回事? 4、怎么用cmd新建cs.js

2023-12-08
php开源微博,php开源博客

2022-11-24
第1章python简介(python第一章笔记)

2022-11-10
阿里python学习笔记及教程,python 阿里巴巴

2022-11-22
java调用新浪微博(新浪微博java版)

2022-11-11