一、下载jieba停用词表
在进行文本分析时,需要将中文文本分词,然后去除一些无意义的词语,比如“的”、“了”等,以便更好地展现文本的含义。jieba是一个非常流行的中文分词工具,它的停用词表就是用来存储这些无意义的词语的列表,jieba提供了默认的停用词表,但是我们也可以选择自己需要的停用词表。
首先我们需要下载jieba停用词表,推荐从官方GitHub仓库进行下载:
import urllib.request url = 'https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/stop_words.txt' urllib.request.urlretrieve(url, './stopwords.txt')
此时,我们就可以在项目文件夹下找到一个名为“stopwords.txt”的文件,它就是jieba停用词表。
二、jieba去除停用词
有了停用词表之后,我们就可以利用jieba去除停用词,例如:
import jieba jieba.load_userdict('./userdict.txt') # 加载用户自定义词典 with open('./example.txt', 'r', encoding='utf-8') as f: text = f.read() seg_list = jieba.cut(text, cut_all=False) stopwords = [line.strip() for line in open('./stopwords.txt', 'r', encoding='utf-8').readlines()] outstr = '' for word in seg_list: if word not in stopwords: outstr += word outstr += ' ' print(outstr)
上述代码中,我们先读取了一个文本文件“example.txt”,然后利用jieba进行分词,再利用停用词表进行去除停用词,最后输出去除停用词的结果。
三、jieba停用词表是干嘛的
停用词表是为了在文本分析时过滤掉无意义的单词,比如代词、介词等,以保留更有用的内容。jieba停用词表中包含了一些常见的无意义词语,如“的”、“了”、“那”等。同时,jieba也提供了用户自定义停用词表的功能,可以根据需要增加或删除停用词汇。
四、jieba停用词表具体应用场景
在中文文本分析的过程中,jieba停用词表可以帮助我们过滤掉一些无意义的词语,仅保留有用的文本信息,大幅提高文本分析的准确性和效率。例如:
- 情感分析:在情感分析中,我们一般关注一些代表情感态度的词汇,如“喜欢”、“讨厌”等,而并不关心一些无意义的单词。
- 舆情分析:在舆情分析中,我们一般关注公众的关注点和情绪变化,而忽略一些无意义的声音和信息。
- 文档分类:在文档分类中,我们一般关注文档的主题和重点,而不需要过多考虑文档中的修辞手法和无意义的单词。
五、结语
在中文文本分析的过程中,jieba停用词表扮演了非常重要的角色,它可以帮助我们过滤掉一些无意义的单词,保留有用的文本信息,以提高文本分析的准确性和效率。同时,jieba也提供了用户自定义停用词表的功能,可以根据需要增加或删除停用词汇。