您的位置:

Jieba自定义词典详解

随着技术的不断发展,中文分词作为自然语言处理的一项基础性技术,越来越受到关注。在中文分词库中,jieba库是最为流行和广泛应用的一个。而jieba库中的自定义词典更是许多人所青睐的一项功能。下面我们将从几个方面对jieba自定义词典进行详细的阐述。

一、自定义词典的作用

1、提高分词准确率。

自定义词典可以帮助jieba库实现对特定文档或者应用场景中使用的非通用词汇的识别,从而提高分词的准确率。比如,在医学领域中,有一些医学术语是标准词典中没有收录的,如果我们在使用jieba进行分词时不将这些专业词汇加入到自定义词典中,那么这些词汇就会被分成两部分或者被分成多个词。

2、自定义名词,从而符合业务场景。

在特定的业务场景中,通用的词库不一定能够满足实际情况,而自定义词库可以帮助我们满足特定业务场景的需求,从而使得分词结果更加符合业务场景。

二、jieba的自定义词典相关函数详解及使用示例

1、 add_word(word, freq=None, tag=None)

import jieba  
  
jieba.add_word('蜂窝煤')  # 将词蜂窝煤加入jieba的自定义词典  
words = jieba.cut('中国矿业大学的煤矿里挖出了大量的蜂窝煤')  
print('/'.join(words))  

上述代码实现了向jieba的自定义词典中添加一个新词“蜂窝煤”,然后利用jieba库来进行分词并打印出分词结果。执行结果是:中国矿业大学/的/煤矿里/挖出/了/大量/的/蜂窝煤。可以看出,添加了自定义词典后,分词结果更加完整,且“蜂窝煤”被识别为一个词。

2、 del_word(word)

import jieba  
  
jieba.del_word('蜂窝煤')  # 将词蜂窝煤从jieba的自定义词典中删除  
words = jieba.cut('中国矿业大学的煤矿里挖出了大量的蜂窝煤')  
print('/'.join(words))  

上述代码实现了从jieba的自定义词典中删除一个词“蜂窝煤”,然后利用jieba库来进行分词并打印出分词结果。执行结果是:中国矿业大学的/煤矿里/挖出/了/大量/的。可以看出,删除了自定义词典中的词汇后,分词结果发生了变化。

3、load_userdict(file_name)

load_userdict函数可以让我们从外部文件中导入自定义词汇,提高程序的灵活性。

import jieba 

jieba.load_userdict('userdict.txt') # 加载自定义词典

words = jieba.cut('我来到北京清华大学')  
print('/'.join(words))  

上述代码中,我们通过load_userdict函数将自定义词汇从userdict.txt文件中加载到jieba的自定义词典中,然后再使用jieba库进行分词,并打印出分词结果。由于userdict.txt中包含的自定义词汇“清华大学”,因此可以看到分词结果中包含了这个词汇。

三、自定义词典相关注意事项

1、自定义词库中的频率值freq,只是为了调整分词结果,默认都是None,不起实际作用。

2、自定义词汇如果有多种词性,可以通过给词性tag进行赋值来实现。如“中国铁建”具有“公司名”和“地名”两种基本词性,需要标注出来。

import jieba

jieba.add_word('中国铁建', freq=50, tag='公司名')  # 加入公司名
jieba.add_word('中国铁建', freq=50, tag='地名')  # 加入地名

words = jieba.cut('中国铁建在北京建铁路')  
for word in words:
    print(word + "/" +jieba.lcut(word)[0].tag)

上述代码通过add_word函数将“中国铁建”加入到jieba的自定义词典中,并用freq来标注出这个公司名/地名的词汇在自定义词典中的重要程度。然后通过cut方法来进行分词,并用lcut方法来打印出每个分词的词性。执行结果是:中国铁建/公司名/在/北京/建/铁路。

3、自定义过多的词汇会导致jieba运行变慢,同时不一定会对分词结果带来提升。

四、总结

本文对jieba库的自定义词典进行了详细的解释和说明,并介绍了相关函数的使用方法。自定义词典在jieba库中具有重要的作用,可以提高分词的准确率和符合业务场景的程度。但是在实际使用中,需要注意自定义词汇的数量和实际的效果。