本文目录一览：

Python hmmlearn中的混淆矩阵是怎么表示的
python中怎样处理汉语的同义词用结巴分词
Python-画好看的云词图

Python hmmlearn中的混淆矩阵是怎么表示的

hmmlearn这个库有三种模型，分别是Gaussian，Multinomial和GMMHMM。这三种模型对应的就是三种emission matrix（即混淆矩阵，也就是隐状态到观察态的概率）。Gaussian就是说混淆矩阵是一个高斯分布，即观察态是连续的。Multinomial就是说混淆矩阵是一个Multinomial distribution，即观察态势离散的。GMMHMM则是说混淆矩阵是遵循Gaussian mixture分布，也是连续的。题主问如何把混淆矩阵输入到模型里面。首先你要确定你的混淆矩阵的类型。对于Gaussian类型，就是把你希望的 mean和variance值放到模型里面。我就直接把文档里面的例子搬过来，例子里是建立了一个高斯分布的隐马尔科夫模型。

import numpy as np
from hmmlearn import hmm
# 一个隐马尔科夫模型由（p向量，状态转移矩阵，混淆矩阵）来定义。
startprob = np.array([0.6, 0.3, 0.1])  # 定义初始状态的概率
transmat = np.array([[0.7, 0.2, 0.1], [0.3, 0.5, 0.2], [0.3, 0.3, 0.4]])  # 定义转移矩阵的概率
means = np.array([[0.0, 0.0], [3.0, -3.0], [5.0, 10.0]])  # 定义混淆矩阵的均值
covars = np.tile(np.identity(2), (3, 1, 1))  # 定义混淆矩阵的方差
model = hmm.GaussianHMM(3, "full", startprob, transmat)  # 定义一个混淆矩阵为高斯分布的隐马尔科夫模型。这里‘full’的意思就是说你输入的方差矩阵每个元素都给出了，不是一个只是对角线上的元素为0的矩阵
model.means_ = means
model.covars_ = covars  # 把你希望的均值方差输入你定义的模型里面，到此你就把混淆矩阵输入进模型了
X, Z = model.sample(100)

对于Multinomial 和 GMM，我还没用，不过Multinomial应该是需要你自己手动输入隐状态到观察态的概率的，而GMM应该是和Gaussian类型类似，只是需要多输入一个权重因子。对于第二个问题，covariance_type意思是你的混淆矩阵的covariance matrix是什么类型，比如若只是对角线上的元素不为0，则把covariance_type设为‘diag’。

python中怎样处理汉语的同义词用结巴分词

python中文分词：结巴分词中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

安装（Linux环境）

下载工具包，解压后进入目录下，运行：python setup.py install

模式

默认模式，试图将句子最精确地切开，适合文本分析
全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎

接口

组件只提供jieba.cut方法用于分词 cut方法接受两个输入参数：

第一个参数为需要分词的字符串
cut_all参数用来控制分词模式待分词的字符串可以是gbk字符串、utf-8字符串或者unicode。 jieba.cut返回的结构是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list。

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode:", ' '.join(seg_list))
seg_list = jieba.cut("我来到北京清华大学")
print("Default Mode:", ' '.join(seg_list))

Python 画好看的云词图

词云图是数据分析中比较常见的一种可视化手段。词云图，也叫文字云，是对文本中出现频率较高的关键词予以视觉化的展现，出现越多的词，在词云图中展示越显眼。词云图过滤掉大量低频低质的文本信息，因此只要一眼扫过文本就可领略文章主旨。例如：上面这张图，看一眼就知道肯定是新华网的新闻。那生成一张词云图的主要步骤有哪些？这里使用 Python 来实现，主要分三步：

首先是“结巴”中文分词 jieba 的安装。
然后安装 wordcloud 词云图库。
最后使用这些库生成词云图。对于英文文本，word_cloud可以直接对文本源生成词云图。但是对中文的支持没有那么给力，所以需要先使用 jieba 对中文文本进行分词，把文章变成词语，然后再生成词云图。例如：

jieba.cut分词：方法接受三个输入参数，sentence需要分词的字符串；cut_all用来控制是否采用全模式；HMM用来控制是否使用HMM模型。
jieba.cut_for_search分词：方法接受两个参数，sentence需要分词的字符串；是否使用HMM模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。
jieba.analyse.textrank使用TextRank算法从句子中提取关键词。如果执行上面命令后，显示 success，那么恭喜你，安装成功了。我就遇到了 Failed building wheel for wordcloud 的错误。于是先安装 xcode-select, 再安装 wordcloud 即可（无需安装 Xcode）。 wordcloud库把词云当作一个 WordCloud 对象，wordcloud.WordCloud()代表一个文本对应的词云，可以根据文本中词语出现的频率等参数绘制词云，绘制词云的形状、尺寸和颜色。

首先导入文本数据并进行简单的文本处理
分词
设置遮罩

注意：

默认字体不支持中文，如果需要显示中文，需要设置中文字体，否则会乱码。
设置遮罩时，会自动将图片非白色部分填充，且图片越清晰，运行速度越快其中 WordCloud 是云词图最重要的对象，其主要参数描述如下：效果如下图：上小结是将文章中所有内容进行分词，输出了所有词，但很多时候，我们有进一步的需求。例如：
只需要前100个关键词就够了。
不需要五颜六色的词语，应与遮罩图片颜色一致。 100个关键词，我们在分词时使用 TextRank 算法从句子中提取关键词。遮罩颜色可通过设置 WordCloud 的 color_func 属性。最终效果如下：

包含hmm的python实现的词条

本文目录一览：

Python hmmlearn中的混淆矩阵是怎么表示的

python中怎样处理汉语的同义词用结巴分词

安装（Linux环境）

模式

接口

实例

Python 画好看的云词图

注意：