您的位置:

python从文本构建词典,python自制英汉词典

本文目录一览:

PYTHON问题,如何把一篇文档投射到词典中,并在词的索引位置记录该词出现的次数

通过遍历整篇文档,在遍历的时候利用dict 的key 、value 保存每个“词”,可以以 “词” 为key ,以”次数“ 为value ,最后会生成一个dict

Python字典创建、基本操作以及常用方法

创建一个空字典自需要一对大括号即可,从已有的键-值对映射或关键字参数创建字典需要使用 dict 函数(类)

把一个列表转为字典,列表的每一项都是长度为2的序列。

还可使用 关键字实参 (**kwargs)来调用这个函数,如下所示:

字典的基本操作与序列十分相似:

字典与序列的不同:

方法 clear 删除所有的字典项(key-value)。

复制,得到原字典的一个新副本。

效果等同于调用 dict(d) 创建新字典。

copy() 执行的是 浅复制 ,若字典的值是一个可变对象,那么复制以后,相同一个键将关联到同一个对象,修改该对象,将同时修改两个字典。

模块copy中的函数deepcopy 可执行深复制。

方法fromkeys 创建一个新字典,其中包含指定的键,且每个键对应的值都是None,或者可以提供一个i额默认值。

方法get 为访问字典项提供了宽松的环境。通常,如果你试图访问字典中没有的项,将引发错误,而get直接返回None,或者可设置默认返回值。

当字典中不存在指定键时, setdefault(k,v) 添加一个指定键-值对;且返回指定键所关联的值。

这三个方法返回值属于一种名为 字典视图 的特殊类型。字典视图可用于迭代。另外,还可确定其长度以及对其执行成员资格检查。

这三个方法自大的特点是不可变,当你的接口试图对其他用户提供一个只读字典,而不希望他们修改的时候,这三个方法是很有用的;而且当原字典发生改变时,这些方法返回的对象也会跟着改变。

方法 pop 可用于获取与指定键相关联的值,并将该键-值对从字典中删除。

popitem随机删除一个键-值对,并返回一个二维的元组 (key, value) ,因为字典是无序的,所以其弹出的顺序也是不确定的。

书上说,这个方法在大数据量时执行效率很高,但没有亲测。

方法update 使用一个字典中的项来更新另一个字典。

python 提取特定字符所在的行,并构建字典

import re

testfile=open(r"test.txt")

teststr=testfile.read()

teststr+="\n"

testdict={}

reg=re.compile(r"^\s*(.+?)$(.+?)(?=(^\s*))",re.M+re.S)

matchs=reg.finditer(teststr)

for match in matchs:

    key=match.group(1)

    value=match.group(2)

    testdict[key]=value

print testdict

以上代码假设数据是存储在文件test.txt中的,最后打印出来的字典 testdict 符合要求吧