一、文件读取的基础知识
Python具有很强的文件操作能力,可以对文件进行读取、写入、追加等操作。文件读取是Python操作文件的一项基础操作,Python有三种文件读取模式:文本模式(Text mode)、二进制模式(Binary mode)、Unicode模式(Unicode mode)。文本模式一般用于读写普通文本文件,二进制模式用于读写二进制文件(比如图片、音频文件等)。
而在Python中,开始读取文件之前,我们需要明确以下几个概念:
文件名:包括文件目录和文件名,既可以绝对路径,也可以是相对路径;
文件打开模式:读取模式还是覆盖模式;
字符编码:文件编码格式,常用的有UTF-8、ANSI等;
文件读取开始位置:是否从文件起始位置进行读取数据。
二、Python快速读取文本内容方法
在使用Python做数据处理时,经常需要大量读取文本文件中的数据,一般情况下使用Python内置函数open()函数打开文件,然后进行循环readline()或readlines()方式来进行读取,但是,这种方法对于大文件处理效率比较低,需要比较长的处理时间。
为此,Python提供了一个快速读取文本文件内容的方法:使用with open()方式结合yield生成器,这种方法可以快速读取大型文本文件内容,对于大数据量的处理非常高效。
def read_large_file(file_path): with open(file_path, 'r', encoding='utf-8') as f: while True: data = f.read(100000) if not data: break yield data
代码解释:
1、使用with open()方法打开文件,将文件对象存储在f中;
2、定义一个死循环,代表不断从文件中读取数据,每次读取100000个字符;
3、如果当前读取的数据为空,则退出循环,否则使用yield返回数据。
三、Python性能测试
为了验证with open()方式的效率,我们进行了测试。测试方法为:使用with open()方式一次性读取1.17G的txt文件,并记录整个过程的时间。测试结果如下:
import time def read_file(file_path): try: s = time.time() with open(file_path, 'r') as f: data = f.read() e = time.time() print('Cost {:.3f} seconds'.format(e - s)) return data except Exception as e: print(e) return None if __name__ == '__main__': read_file('test.txt')
测试结果:Cost 0.523 seconds,可以验证这种方式读取文本文件的效率非常高。
四、总结
Python的文件操作是Python的一个非常实用的特性,学好文件读取操作是Python编程中必不可少的一部分,尤其是在数 据处理和分析需要处理大数据量的时候,使用快速读取文本文件内容的技巧可以大幅度提高程序的效率,使程序处理起来 更加高效、流畅。