您的位置:

Python文件读取——快速读取文本内容

一、文件读取的基础知识

Python具有很强的文件操作能力,可以对文件进行读取、写入、追加等操作。文件读取是Python操作文件的一项基础操作,Python有三种文件读取模式:文本模式(Text mode)、二进制模式(Binary mode)、Unicode模式(Unicode mode)。文本模式一般用于读写普通文本文件,二进制模式用于读写二进制文件(比如图片、音频文件等)。

而在Python中,开始读取文件之前,我们需要明确以下几个概念:

文件名:包括文件目录和文件名,既可以绝对路径,也可以是相对路径;

文件打开模式:读取模式还是覆盖模式;

字符编码:文件编码格式,常用的有UTF-8、ANSI等;

文件读取开始位置:是否从文件起始位置进行读取数据。

二、Python快速读取文本内容方法

在使用Python做数据处理时,经常需要大量读取文本文件中的数据,一般情况下使用Python内置函数open()函数打开文件,然后进行循环readline()或readlines()方式来进行读取,但是,这种方法对于大文件处理效率比较低,需要比较长的处理时间。

为此,Python提供了一个快速读取文本文件内容的方法:使用with open()方式结合yield生成器,这种方法可以快速读取大型文本文件内容,对于大数据量的处理非常高效。

def read_large_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        while True:
            data = f.read(100000)
            if not data:
                break
            yield data

代码解释:

1、使用with open()方法打开文件,将文件对象存储在f中;

2、定义一个死循环,代表不断从文件中读取数据,每次读取100000个字符;

3、如果当前读取的数据为空,则退出循环,否则使用yield返回数据。

三、Python性能测试

为了验证with open()方式的效率,我们进行了测试。测试方法为:使用with open()方式一次性读取1.17G的txt文件,并记录整个过程的时间。测试结果如下:

import time
 
def read_file(file_path):
    try:
        s = time.time()
        with open(file_path, 'r') as f:
            data = f.read()
        e = time.time()
        print('Cost {:.3f} seconds'.format(e - s))
        return data
    except Exception as e:
        print(e)
        return None
 
if __name__ == '__main__':
    read_file('test.txt')

测试结果:Cost 0.523 seconds,可以验证这种方式读取文本文件的效率非常高。

四、总结

Python的文件操作是Python的一个非常实用的特性,学好文件读取操作是Python编程中必不可少的一部分,尤其是在数 据处理和分析需要处理大数据量的时候,使用快速读取文本文件内容的技巧可以大幅度提高程序的效率,使程序处理起来 更加高效、流畅。