一、头文件

Python中读取文本文件的方法需要使用到内置函数open()和相关的模块，因此需要引用相关的头文件，例如：

import os  
import codecs 
import sys

os：Python内置的库之一，提供了许多与操作系统交互的接口，例如实现文件、目录、进程等操作。
codecs：Python内置的编解码库，用于在文本和二进制之间进行转换的操作。
sys：Python内置的库之一，提供了一系列与Python解释器和它所在的操作系统交互的函数和变量。

二、读取文本文件并添加行号

Python的open()函数返回一个文件操作对象，其有read()函数、readline()函数和readlines()函数三种方法。其中，readline()函数用于读取单行，readlines()函数用于读取所有行并返回一个列表，而read()函数则会一次读取整个文件并返回字符串。下面是一个读取文件并添加行号的例子，可以使用其中的readline()函数和enumerate()函数实现：

def read_file_add_line_number(file_path: str) -> None:
    with open(file_path, 'r', encoding='utf-8') as f:
        for i, line in enumerate(f):
            print(f'Line {i}: {line.strip()}')

其中，enumerate()函数是Python内置的函数，它返回一个由enumerate对象组成的迭代器，可同时获取列表线性索引和对应值。

三、读取文本文件的文字

对于txt文本文件，可以使用open()函数进行读取。如果文件中含有中文，需要指定编码方式，例如'utf-8'：

with open(file_path, 'r', encoding='utf-8') as f:
    text = f.read()

如果是其他类型的文件，可以使用Python内置的模块，例如pandas：

import pandas as pd
data = pd.read_csv(file_path, delimiter='\t')

四、读取文本文件编码

在读取txt文本文件时，常常需要猜测文件编码，以下是一种简单的方法：

import chardet
def get_file_encoding(file_path: str) -> str:
    with open(file_path, 'rb') as f:
        raw_data = f.read()
    return chardet.detect(raw_data)['encoding']

chardet是Python内置的一个模块，它能够根据文本内容自动猜测编码方式。

五、读取文本文件内容的方法

除了可以使用open函数和pandas，还可以使用Python内置的fileinput和glob模块。 fileinput模块可以直接从stdin或文件中读取行，并使用fileinput.input()作为文件名的列表，代码如下：

import fileinput
for line in fileinput.input(file_path):
    print(line)

glob模块可以得到目录中的每一个文件，进而批量处理。该模块会返回一个由文件名组成的列表，可直接使用open()函数进行文本读取，代码如下：

import glob
for file in glob.glob(file_path + '/*.txt'):
    with open(file) as f:
        text = f.read()
    # do something...

六、读取文本文件调用的函数

如上所述，Python中读取文本文件的函数有很多，下面总结一下它们各自的特点：

open()函数：Python内置函数，兼容所有类型文件，并支持读、写、追加和二进制等形式，可以指定文件编码方式
pandas库：Python内置数据分析库，专门用于数据读取和处理，常用于csv等格式的数据文件
fileinput模块：Python内置模块，可从stdin或文件中读取行，使用fileinput.input()可支持多文件读取及迭代访问
glob模块：Python内置模块，可得到目录中的每一个文件，并返回一个由文件名组成的列表

七、读取文本文件的函数

除了使用上述内置函数和模块之外，还可以自定义读取函数，以下是一个读取文件内容并统计单词数的例子：

def read_file(file_path: str) -> dict:
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
    words = content.strip().split()
    return {word: words.count(word) for word in set(words)}

该函数使用set()去重，并返回一个字典，键为单词，值为出现次数。

八、读取文本文件数据

除了读取单个文本文件，还可以读取多个文件并组成数据集，例如：

def read_files(files_dir: str) -> list:
    data = []
    for file in glob.glob(files_dir + '/*.txt'):
        with open(file) as f:
            text = f.read()
        labels = file.split('/')[-2]
        data.append((text, labels))
    return data

该函数将读取同一个目录下的txt文件，返回一个列表，列表的元素是元组，元组的第一项为文件内容，第二项为文件所在目录的名称。

九、读取记事本文件

Windows下常用的记事本文件其实是以Unicode（UTF-16 LE）编码保存的，因此可以使用codecs库进行读取，如下所示：

import codecs
with codecs.open(file_path, mode="r", encoding="utf-16le") as f:
    data = f.read()

需要注意的是，一定要指定编码方式为utf-16le。

Python读取文本文件的方法详解