您的位置:

jieba停用词表详解

一、下载jieba停用词表

在进行文本分析时,需要将中文文本分词,然后去除一些无意义的词语,比如“的”、“了”等,以便更好地展现文本的含义。jieba是一个非常流行的中文分词工具,它的停用词表就是用来存储这些无意义的词语的列表,jieba提供了默认的停用词表,但是我们也可以选择自己需要的停用词表。

首先我们需要下载jieba停用词表,推荐从官方GitHub仓库进行下载:

import urllib.request
url = 'https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/stop_words.txt'
urllib.request.urlretrieve(url, './stopwords.txt')

此时,我们就可以在项目文件夹下找到一个名为“stopwords.txt”的文件,它就是jieba停用词表。

二、jieba去除停用词

有了停用词表之后,我们就可以利用jieba去除停用词,例如:

import jieba
jieba.load_userdict('./userdict.txt') # 加载用户自定义词典
with open('./example.txt', 'r', encoding='utf-8') as f:
    text = f.read()
    seg_list = jieba.cut(text, cut_all=False)
    stopwords = [line.strip() for line in open('./stopwords.txt', 'r', encoding='utf-8').readlines()]
    outstr = ''
    for word in seg_list:
        if word not in stopwords:
            outstr += word
            outstr += ' '
    print(outstr)

上述代码中,我们先读取了一个文本文件“example.txt”,然后利用jieba进行分词,再利用停用词表进行去除停用词,最后输出去除停用词的结果。

三、jieba停用词表是干嘛的

停用词表是为了在文本分析时过滤掉无意义的单词,比如代词、介词等,以保留更有用的内容。jieba停用词表中包含了一些常见的无意义词语,如“的”、“了”、“那”等。同时,jieba也提供了用户自定义停用词表的功能,可以根据需要增加或删除停用词汇。

四、jieba停用词表具体应用场景

在中文文本分析的过程中,jieba停用词表可以帮助我们过滤掉一些无意义的词语,仅保留有用的文本信息,大幅提高文本分析的准确性和效率。例如:

  • 情感分析:在情感分析中,我们一般关注一些代表情感态度的词汇,如“喜欢”、“讨厌”等,而并不关心一些无意义的单词。
  • 舆情分析:在舆情分析中,我们一般关注公众的关注点和情绪变化,而忽略一些无意义的声音和信息。
  • 文档分类:在文档分类中,我们一般关注文档的主题和重点,而不需要过多考虑文档中的修辞手法和无意义的单词。

五、结语

在中文文本分析的过程中,jieba停用词表扮演了非常重要的角色,它可以帮助我们过滤掉一些无意义的单词,保留有用的文本信息,以提高文本分析的准确性和效率。同时,jieba也提供了用户自定义停用词表的功能,可以根据需要增加或删除停用词汇。