python处理中文与英文（python中英文字符和中文字符）

本文目录一览：

1、如何用 Python 中的 NLTK 对中文进行分析和处理
2、python 格式化带中文等字符与纯英文显示串位的问题
3、如何解决Python中文问题

如何用 Python 中的 NLTK 对中文进行分析和处理

最近正在用nltk 对中文网络商品评论进行褒贬情感分类，计算评论的信息熵（entropy）、互信息（point mutual information）和困惑值（perplexity）等（不过这些概念我其实也还理解不深...只是nltk 提供了相应方法）。

我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。

中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词，所以必须要先对文本进行分词然后再用nltk 来处理（不需要用nltk 来做分词，直接用分词包就可以了。严重推荐结巴分词，非常好用）。

中文分词之后，文本就是一个由每个词组成的长数组：[word1, word2, word3…… wordn]。之后就可以使用nltk 里面的各种方法来处理这个文本了。比如用FreqDist 统计文本词频，用bigrams 把文本变成双词组的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

再之后就可以用这些来计算文本词语的信息熵、互信息等。

再之后可以用这些来选择机器学习的特征，构建分类器，对文本进行分类（商品评论是由多个独立评论组成的多维数组，网上有很多情感分类的实现例子用的就是nltk 中的商品评论语料库，不过是英文的。但整个思想是可以一致的）。

另外还有一个困扰很多人的Python 中文编码问题。多次失败后我总结出一些经验。

Python 解决中文编码问题基本可以用以下逻辑：

utf8（输入） —— unicode（处理） —— （输出）utf8

Python 里面处理的字符都是都是unicode 编码，因此解决编码问题的方法是把输入的文本（无论是什么编码）解码为（decode）unicode编码，然后输出时再编码（encode）成所需编码。

由于处理的一般为txt 文档，所以最简单的方法，是把txt 文档另存为utf-8 编码，然后使用Python 处理的时候解码为unicode（sometexts.decode('utf8')），输出结果回txt 的时候再编码成utf8（直接用str() 函数就可以了）。

python处理中文与英文（python中英文字符和中文字符）

python 格式化带中文等字符与纯英文显示串位的问题

对字符串中的每个字符判断一下是不是ascii码就是了，如果不是很大量的数据，效率也还好啦，

像这样的用string.rjust string.ljust比较好吧

如何解决Python中文问题

python的中文问题一直是困扰新手的头疼问题，Python的发行版至今尚未包括任何中文支持模块。当然，几乎可以确定的是，在将来的版本中，python会彻底解决此问题，不用我们这么麻烦了。笔者使用的是2.5版本。Python的版本可以通过调用sys模块的sys.version查看。在几个月的学习中，主要遇到以下问题：

1. print打印中文的问题：

在编辑器中输入一段测试代码：

s=’测试’

print s

运行结果如下：

Non-ASCII character '\xb2' in file c:\Documents and Settings\Administrator\桌面\2.py on line 1, but no encoding declared; see for details: 2.py, line 1, pos 0

原因是如果文件里有非ASCII字符，需要指定编码声明。把2.py文件的编码重新改为utf-8，并加上编码声明：

# -*- coding: utf-8 -*-

s=’测试’

print s

运行后可以正确打印中文。

2.中文路径的问题。

在D盘下保存一个名字为‘中文.txt‘的文件。运行如下测试代码：

# -*- coding: utf-8 -*-

f=open('D:\\中文.txt', 'r')

print f.read()

运行结果如下：

IOError: [Errno 2] No such file or directory: 'D:\\\xe4\xb8\xad\xe6\x96\x87.txt'

字符串有很多的编码，不同的系统和平台有各自的编码，为了实现系统或平台之间的信息交互可能需要编码转换。这里只需要先使用UNICODE编码一下，这样再读取中文路径就不会有问题了：

复制代码

# -*- coding: utf-8 -*-

path='D:\\中文.txt'

spath=unicode(path , "utf8")

f=open(spath,'r')

print f.read()

复制代码

然后就可以正确显示文件内容

总结：

所有的中文显示问题都可以归结为编码问题，遇到其他类似的问题，那只能仔细看文档，靠你的经验，靠你多做测试。而且根据python所报出来的错误一般也可以判断出来。那么当发现需要编码转换时，剩下的就是如何正确进行码制转换。

为了正确处理多语言文本，Python在2.0版后引入了Unicode字符串。从那时起，Python语言中的字符串就分为两种：一种是2.0版之前就已经使用很久的传统Python字符串，一种则是新的Unicode字符串。在Python语言中，一般的解决办法是使用unicode()内建函数对一个传统Python字符串进行“解码”，得到一个Unicode字符串，然后又通过Unicode字符串的encode()方法对这个Unicode字符串进行“编码”，将其“编码”成为传统Python字符串。

Python提取句中中英文内容的方法

在使用Python进行文本处理时，经常会遇到需要从句子中提取出中英文内容的情况。本文将从多个方面介绍Python提取句中中英文内容的方法。一、使用正则表达式提取中英文正则表达式是一种强大的文本匹配

2023-12-08

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python处理中文与英文（python中英文字符和中文字符）

本文目录一览：

如何用 Python 中的 NLTK 对中文进行分析和处理

python 格式化带中文等字符与纯英文显示串位的问题

如何解决Python中文问题

python处理中文与英文（python中英文字符和中文字符

python中中文字符串,python中中文字符串比较相等

深入解析字符串英文

python中文字符问题（Python字符处理）

python字符编码笔记（python默认字符编码）

python英文缩写（python的全称）

Python实现多值字典与中英文数字互转：cnvalues测

python字符编码和文件处理,关于python字符编码

python的用法笔记本（笔记本学python）

python读取中文文本出错,python文本纠错

python中的字符串处理方法（python 字符串处理函数

python中词语中文,Python中文

python标准库的pdf文档,python中文手册 pdf

python中文翻译英文脚本（python翻译代码）

python基础笔记整理（python基础教程总结）

python学习之笔记（python的笔记）

我的python笔记06（Python）

python方法笔记,python基础教程笔记

使用Python进行字符串和字典处理

Python提取句中中英文内容的方法

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python处理中文与英文（python中英文字符和中文字符）

本文目录一览：

如何用 Python 中的 NLTK 对中文进行分析和处理

python 格式化带中文等字符与纯英文显示串位的问题

如何解决Python中文问题

python处理中文与英文（python中英文字符和中文字符

python中中文字符串,python中中文字符串比较相等

深入解析字符串英文

python中文字符问题（Python字符处理）

python字符编码笔记（python默认字符编码）

python英文缩写（python的全称）

Python实现多值字典与中英文数字互转：cnvalues测

python字符编码和文件处理,关于python字符编码

python的用法笔记本（笔记本学python）

python读取中文文本出错,python文本纠错

python中的字符串处理方法（python 字符串处理函数

python中词语中文,Python中文

python标准库的pdf文档,python中文手册 pdf

python中文翻译英文脚本（python翻译代码）

python基础笔记整理（python基础教程总结）

python学习之笔记（python的笔记）

我的python笔记06（Python）

python方法笔记,python基础教程笔记

使用Python进行字符串和字典处理

Python提取句中中英文内容的方法

人机检测，请谅解