python本地文本词云图(可绘制词云图的python第三方库)

发布时间:2022-11-16

本文目录一览:

  1. [Python 画好看的云词图](#Python 画好看的云词图)
  2. [python如何做词云 一步一步教你如何做](#python如何做词云 一步一步教你如何做)
  3. python如何生成词云图

Python 画好看的云词图

词云图是数据分析中比较常见的一种可视化手段。词云图,也叫文字云,是对文本中出现频率较高的 关键词 予以视觉化的展现,出现越多的词,在词云图中展示越显眼。词云图过滤掉大量低频低质的文本信息,因此只要一眼扫过文本就可 领略文章主旨 。 例如?上面这张图,看一眼就知道肯定是新华网的新闻。 那生成一张词云图的主要步骤有哪些?这里使用 Python 来实现,主要分三步: 首先是“结巴”中文分词 jieba 的安装。 对于英文文本,word_cloud 可以直接对文本源生成词云图。但是对中文的支持没有那么给力,所以需要先使用 jieba 对中文文本进行分词,把文章变成词语,然后再生成词云图。例如:

  • jieba.cut 分词:方法接受三个输入参数,sentence 需要分词的字符串;cut_all 用来控制是否采用全模式;HMM 用来控制是否使用 HMM 模型。
  • jieba.cut_for_search 分词:方法接受两个参数,sentence 需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。
  • jieba.analyse.textrank 使用 TextRank 算法从句子中提取关键词。 然后安装 wordcloud 词云图库。 如果执行上面命令后,显示 success,那么恭喜你,安装成功了。 我就遇到了 Failed building wheel for wordcloud 的错误。于是先安装 xcode-select, 再安装 wordcloud 即可(无需安装 Xcode)。 wordcloud 库把词云当作一个 WordCloud 对象,wordcloud.WordCloud() 代表一个文本对应的词云,可以根据文本中词语出现的频率等参数绘制词云,绘制词云的形状、尺寸和颜色。
  1. 首先导入文本数据并进行简单的文本处理
  2. 分词
  3. 设置遮罩 注意:
  4. 默认字体不支持中文,如果需要显示中文,需要设置中文字体,否则会乱码。
  5. 设置遮罩时,会自动将图片非白色部分填充,且图片越清晰,运行速度越快 其中 WordCloud 是云词图最重要的对象,其主要参数描述如下: 效果如下图: 上小结是将文章中所有内容进行分词,输出了所有词,但很多时候,我们有进一步的需求。例如:
  6. 只需要前 100 个关键词就够了。
  7. 不需要五颜六色的词语,应与遮罩图片颜色一致。 100个关键词,我们在分词时使用 TextRank 算法从句子中提取关键词。 遮罩颜色可通过设置 WordCloud 的 color_func 属性。 最终效果如下:

python如何做词云 一步一步教你如何做

如果你之前没有编程基础,没关系。希望你不要限于浏览,而是亲自动手尝试一番。到完成的那一步,你不仅可以做出第一张词云图,而且这还将是你的第一个有用的编程作品。

  1. 请确保你的python环境没有问题,用的开发工具是VsCode,首先你要在Python扩展中安装python开发环境(当然,这不是为你的windows安装python)。
  2. 那么你还需要安装所需要的第三方库,那么在VSCode中并没有PyCharm那么专业,这里需要获得你自己的Python脚本位置。
  3. 我们可以发现里面有一个名为pip.exe文件,这个文件就是python官方给我们去安装python第三方库的一个程序,那么我们可以在VsCode的终端中就可以去通过它,这也是我们为什么要获取python安装位置的根本原因。
  4. python做词云呢,需要导入的包有wordcloud和PIL,其中PIL(Python Image Library)是python平台图像处理标准库,功能是真的强大。首先需要读取文件 。
  5. 如果python引入无误,并代码无误,那么会弹出你生成的图片,该图片会储存在你的系统。

python如何生成词云图

from wordcloud import WordCloud
import jieba
import numpy
import PIL.Image as Image
# 1.将字符串切分
def chinese_jieba(text):
    wordlist_jieba = jieba.cut(text)
    space_wordlist = " ".join(wordlist_jieba)
    return space_wordlist
with open("test.txt", encoding="utf-8") as file:
    text = file.read()
text = chinese_jieba(text)
# 2.图片遮罩层
mask_pic = numpy.array(Image.open("china.jpg"))
# 3.将参数mask设值为:mask_pic
wordcloud = WordCloud(font_path="C:/Windows/Fonts/simfang.ttf", mask=mask_pic).generate(text)
image = wordcloud.to_image()
image.show()

如图所示