您的位置:

python生成词云时的简单介绍

本文目录一览:

python制作词云的时候怎么使文字密集一点

选用的词越多(max_words),样本越大(文本的长度),就越接近正态分布。

在正态分布的情况下,低频词就相对多(长尾定率)。

然后就是调整max_font_size与min_font_size以及relative_scaling了,这三个参数的取值对表观上的密集程度有影响。

如果max_words小,长尾不明显,词云中小字就少,很多地方没有词去填补空白,就显示得不密集。

如果max_font_size与min_font_size没拉开,低频词(长尾部分)就没有小到足够在高频词的空白中填入,字中空白就让整个云显得不密集。

最后调整relative_scaling使交叉方向的比例合适,一些词的空白处就能填入一些较短的低频词进一步减少空白。

python如何生成词云图

from wordcloud import WordCloud

import jieba

import numpy

import PIL.Image as Image

#1.将字符串切分

def chinese_jieba(text):

wordlist_jieba=jieba.cut(text)

space_wordlist=" ".join(wordlist_jieba)

return space_wordlist

with open("test.txt" ,encoding="utf-8")as file:

text=file.read()

text=chinese_jieba(text)

#2.图片遮罩层

mask_pic=numpy.array(Image.open("china.jpg"))

#3.将参数mask设值为:mask_pic

wordcloud = WordCloud(font_path="C:/Windows/Fonts/simfang.ttf",mask=mask_pic).generate(text)

image=wordcloud.to_image()

image.show()

如图所示

Python 画好看的云词图

词云图是数据分析中比较常见的一种可视化手段。词云图,也叫文字云,是对文本中出现频率较高的 关键词 予以视觉化的展现,出现越多的词,在词云图中展示越显眼。词云图过滤掉大量低频低质的文本信息,因此只要一眼扫过文本就可 领略文章主旨 。

例如?上面这张图,看一眼就知道肯定是新华网的新闻。

那生成一张词云图的主要步骤有哪些?这里使用 Python 来实现,主要分三步:

首先是“结巴”中文分词 jieba 的安装。

对于英文文本,word_cloud 可以直接对文本源生成词云图。但是对中文的支持没有那么给力,所以需要先使用 jieba 对中文文本进行分词,把文章变成词语,然后再生成词云图。例如:

jieba.cut 分词:方法接受三个输入参数,sentence 需要分词的字符串;cut_all 用来控制是否采用全模式;HMM 用来控制是否使用 HMM 模型。

jieba.cut_for_search 分词:方法接受两个参数,sentence 需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。

jieba.analyse.textrank 使用 TextRank 算法从句子中提取关键词。

然后安装 wordcloud 词云图库。

如果执行上面命令后,显示 success,那么恭喜你,安装成功了。

我就遇到了 Failed building wheel for wordcloud 的错误。于是先安装 xcode-select, 再安装 wordcloud 即可(无需安装 Xcode)。

wordcloud 库把词云当作一个 WordCloud 对象,wordcloud.WordCloud() 代表一个文本对应的词云,可以根据文本中词语出现的频率等参数绘制词云,绘制词云的形状、尺寸和颜色。

1、首先导入文本数据并进行简单的文本处理

2、分词

3、设置遮罩

注意:

1、默认字体不支持中文,如果需要显示中文,需要设置中文字体,否则会乱码。

2、设置遮罩时,会自动将图片非白色部分填充,且图片越清晰,运行速度越快

其中 WordCloud 是云词图最重要的对象,其主要参数描述如下:

效果如下图:

上小结是将文章中所有内容进行分词,输出了所有词,但很多时候,我们有进一步的需求。例如:

1、只需要前 100 个关键词就够了。

2、不需要五颜六色的词语,应与遮罩图片颜色一致。

100个关键词,我们在分词时使用 TextRank 算法从句子中提取关键词。

遮罩颜色可通过设置 WordCloud 的 color_func 属性。

最终效果如下:

如何用Python做词云

推荐使用jieba模块来实现分词,WordCloud来绘制词云。

# -*- coding: utf-8 -*-

from PIL import Image

import numpy as np

import matplotlib.pyplot as plt

import jieba

from wordcloud import WordCloud, STOPWORDS

# Read the whole text.

text = open('内容.txt', 'r').read()

text = " ".join(jieba.cut(text, cut_all=False))

# 爱心.png表示你绘图模板,就是最后图片的形状

alice_mask = np.array(Image.open('爱心.png'))

# 中文需要设置字体,songti.ttf代表宋体

wc = WordCloud(font_path='songti.ttf', background_color="white", mask=alice_mask,

               max_words=2000)

# generate word cloud

wc.generate(text)

# store to file

wc.to_file('result.png')

# show

plt.imshow(wc)

plt.axis("off")

# plt.figure()

# plt.imshow(alice_mask, cmap=plt.cm.gray)

# plt.axis("off")

plt.show()

python中对已经排好序的词语怎么做词云

期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感。

今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如《倔强》,海阔天空是,什么的大家熟悉的。

所要用到的python库有 jieba(一个中文分词库)、wordcould 、matplotlib、PIL、numpy。

首先我们要做的是读取歌词。我将歌词存在了文件目录下励志歌曲文本中。

现在来读取他

12345

#encoding=gbklyric= ''f=open('./励志歌曲歌词.txt','r')for i in f:  lyric+=f.read()

加入#encoding=gbk是为了防止后面操作报错SyntaxError: Non-UTF-8 code starting with '\xc0'

然后我们用jieba分词来对歌曲做分词提取出词频高的词

123456

import jieba.analyseresult=jieba.analyse.textrank(lyric,topK=50,withWeight=True)keywords = dict()for i in result:  keywords[i[0]]=i[1]print(keywords)

得到结果:

然后我们就可以通过wrodcloud等库来生成词云了

首先先自己找一张图片来作为生成词云的形状的图

12345678910111213

from PIL import Image,ImageSequenceimport numpy as npimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGeneratorimage= Image.open('./tim.jpg')graph = np.array(image)wc = WordCloud(font_path='./fonts/simhei.ttf',background_color='White',max_words=50,mask=graph)wc.generate_from_frequencies(keywords)image_color = ImageColorGenerator(graph)plt.imshow(wc)plt.imshow(wc.recolor(color_func=image_color))plt.axis("off")plt.show()

保存生成图片

1

wc.to_file('dream.png')

完整代码:

1234567891011121314151617181920212223242526272829

#encoding=gbkimport jieba.analysefrom PIL import Image,ImageSequenceimport numpy as npimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGeneratorlyric= ''f=open('./励志歌曲歌词.txt','r')for i in f:  lyric+=f.read()  result=jieba.analyse.textrank(lyric,topK=50,withWeight=True)keywords = dict()for i in result:  keywords[i[0]]=i[1]print(keywords)  image= Image.open('./tim.jpg')graph = np.array(image)wc = WordCloud(font_path='./fonts/simhei.ttf',background_color='White',max_words=50,mask=graph)wc.generate_from_frequencies(keywords)image_color = ImageColorGenerator(graph)plt.imshow(wc)plt.imshow(wc.recolor(color_func=image_color))plt.axis("off")plt.show()wc.to_file('dream.png')

以上这篇python生成词云的实现方法(推荐)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

python如何自定义词云

推荐使用jieba模块来实现分词,WordCloud来绘制词云。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

# -*- coding: utf-8 -*-

from PIL import Image

import numpy as np

import matplotlib.pyplot as plt

import jieba

from wordcloud import WordCloud, STOPWORDS

# Read the whole text.

text = open('内容.txt', 'r').read()

text = " ".join(jieba.cut(text, cut_all=False))

# 爱心.png表示你绘图模板,就是最后图片的形状

alice_mask = np.array(Image.open('爱心.png'))

# 中文需要设置字体,songti.ttf代表宋体

wc = WordCloud(font_path='songti.ttf', background_color="white", mask=alice_mask,

max_words=2000)

# generate word cloud

wc.generate(text)

# store to file

wc.to_file('result.png')

# show

plt.imshow(wc)

plt.axis("off")

# plt.figure()

# plt.imshow(alice_mask, cmap=plt.cm.gray)

# plt.axis("off")

plt.show()