包含hmm的python实现的词条

发布时间:2022-11-16

本文目录一览:

  1. Python hmmlearn中的混淆矩阵是怎么表示的
  2. python中怎样处理汉语的同义词用结巴分词
  3. Python-画好看的云词图

Python hmmlearn中的混淆矩阵是怎么表示的

hmmlearn这个库有三种模型,分别是Gaussian,Multinomial和GMMHMM。这三种模型对应的就是三种emission matrix(即混淆矩阵,也就是隐状态到观察态的概率)。Gaussian就是说混淆矩阵是一个高斯分布,即观察态是连续的。Multinomial就是说混淆矩阵是一个Multinomial distribution,即观察态势离散的。GMMHMM则是说混淆矩阵是遵循Gaussian mixture分布,也是连续的。 题主问如何把混淆矩阵输入到模型里面。首先你要确定你的混淆矩阵的类型。对于Gaussian类型,就是把你希望的 mean和variance值放到模型里面。我就直接把文档里面的例子搬过来,例子里是建立了一个高斯分布的隐马尔科夫模型。

import numpy as np
from hmmlearn import hmm
# 一个隐马尔科夫模型由(p向量,状态转移矩阵,混淆矩阵)来定义。
startprob = np.array([0.6, 0.3, 0.1])  # 定义初始状态的概率
transmat = np.array([[0.7, 0.2, 0.1], [0.3, 0.5, 0.2], [0.3, 0.3, 0.4]])  # 定义转移矩阵的概率
means = np.array([[0.0, 0.0], [3.0, -3.0], [5.0, 10.0]])  # 定义混淆矩阵的均值
covars = np.tile(np.identity(2), (3, 1, 1))  # 定义混淆矩阵的方差
model = hmm.GaussianHMM(3, "full", startprob, transmat)  # 定义一个混淆矩阵为高斯分布的隐马尔科夫模型。这里‘full’的意思就是说你输入的方差矩阵每个元素都给出了,不是一个只是对角线上的元素为0的矩阵
model.means_ = means
model.covars_ = covars  # 把你希望的均值方差输入你定义的模型里面,到此你就把混淆矩阵输入进模型了
X, Z = model.sample(100)

对于Multinomial 和 GMM,我还没用,不过Multinomial应该是需要你自己手动输入隐状态到观察态的概率的,而GMM应该是和Gaussian类型类似,只是需要多输入一个权重因子。 对于第二个问题,covariance_type意思是你的混淆矩阵的covariance matrix是什么类型,比如若只是对角线上的元素不为0,则把covariance_type设为‘diag’。

python中怎样处理汉语的同义词用结巴分词

python中文分词:结巴分词 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:

  • 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
  • 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
  • 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

模式

  • 默认模式,试图将句子最精确地切开,适合文本分析
  • 全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

组件只提供jieba.cut方法用于分词 cut方法接受两个输入参数:

  • 第一个参数为需要分词的字符串
  • cut_all参数用来控制分词模式 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode。 jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list。

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode:", ' '.join(seg_list))
seg_list = jieba.cut("我来到北京清华大学")
print("Default Mode:", ' '.join(seg_list))

Python 画好看的云词图

词云图是数据分析中比较常见的一种可视化手段。词云图,也叫文字云,是对文本中出现频率较高的关键词予以视觉化的展现,出现越多的词,在词云图中展示越显眼。词云图过滤掉大量低频低质的文本信息,因此只要一眼扫过文本就可领略文章主旨。 例如:上面这张图,看一眼就知道肯定是新华网的新闻。 那生成一张词云图的主要步骤有哪些?这里使用 Python 来实现,主要分三步:

  1. 首先是“结巴”中文分词 jieba 的安装。
  2. 然后安装 wordcloud 词云图库。
  3. 最后使用这些库生成词云图。 对于英文文本,word_cloud可以直接对文本源生成词云图。但是对中文的支持没有那么给力,所以需要先使用 jieba 对中文文本进行分词,把文章变成词语,然后再生成词云图。例如:
  • jieba.cut分词:方法接受三个输入参数,sentence需要分词的字符串;cut_all用来控制是否采用全模式;HMM用来控制是否使用HMM模型。
  • jieba.cut_for_search分词:方法接受两个参数,sentence需要分词的字符串;是否使用HMM模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。
  • jieba.analyse.textrank使用TextRank算法从句子中提取关键词。 如果执行上面命令后,显示 success,那么恭喜你,安装成功了。 我就遇到了 Failed building wheel for wordcloud 的错误。于是先安装 xcode-select, 再安装 wordcloud 即可(无需安装 Xcode)。 wordcloud库把词云当作一个 WordCloud 对象,wordcloud.WordCloud()代表一个文本对应的词云,可以根据文本中词语出现的频率等参数绘制词云,绘制词云的形状、尺寸和颜色。
  1. 首先导入文本数据并进行简单的文本处理
  2. 分词
  3. 设置遮罩

注意:

  1. 默认字体不支持中文,如果需要显示中文,需要设置中文字体,否则会乱码。
  2. 设置遮罩时,会自动将图片非白色部分填充,且图片越清晰,运行速度越快 其中 WordCloud 是云词图最重要的对象,其主要参数描述如下: 效果如下图: 上小结是将文章中所有内容进行分词,输出了所有词,但很多时候,我们有进一步的需求。例如:
  3. 只需要前100个关键词就够了。
  4. 不需要五颜六色的词语,应与遮罩图片颜色一致。 100个关键词,我们在分词时使用 TextRank 算法从句子中提取关键词。 遮罩颜色可通过设置 WordCloudcolor_func 属性。 最终效果如下: