一、文件结构和格式
PCM(Pulse-code modulation)是一种音频文件格式,它以数字形式存储模拟声音信号。PCM 格式的音频文件包括一个头文件和一个数据文件,其中头文件描述了音频数据的特性。这些特性包括采样率、采样深度、通道数和编码格式。
下面是一个 PCM 文件头的基本结构:
struct WAVE_HEADER {
char chunk_id[4]{ 'R', 'I', 'F', 'F' };
long chunk_size;
char format[4]{ 'W', 'A', 'V', 'E' };
char fmt_chunk_id[4]{ 'f', 'm', 't', ' ' };
long fmt_chunk_size;
short format_tag;
short channels;
long sample_rate;
long avg_bytes_sec;
short block_align;
short bits_per_sample;
char data_chunk_id[4]{ 'd', 'a', 't', 'a' };
long data_size;
PCM 文件头部分包含 RIFF 标识、文件大小、WAVE 标识、fmt 标志、fmt 区块大小、音频格式、通道数、采样率、每秒字节数、块对齐字节数、采样精度、data 区块标识符和数据区块大小。
二、使用已有软件打开PCM文件
使用已有软件打开 PCM 文件非常容易,只需要双击文件或右键选择“打开方式”,选择一个合适的媒体播放器即可打开文件。有一些流行的媒体播放器,如 Windows Media Player、VLC 或 iTunes,都支持 PCM 格式文件的播放。这些软件已经能够识别 PCM 的文件格式和文件头信息,能够正确解析数据文件并播放其所含音频内容。
以下是使用 Python 语言的 librosa 库读取 PCM 文件例子:
import librosa
filename = 'test.pcm'
y, sr = librosa.load(filename, sr=8000, mono=True, dtype='float32')
这段 Python 代码使用 librosa 库的 load 函数读取文件 'test.pcm' ,指定采样率为 8000 Hz ,mono=True 表示采样单通道音频,dtype='float32' 表示返回的音频数据类型为 float32。
三、使用自己编写的程序打开PCM文件
如果想使用自己编写的程序打开 PCM 文件,需要用到文件 I/O 机制,读取文件头和音频数据。以下是使用 C++ 语言编写的读取 PCM 文件头的示例:
#include <iostream>
#include <fstream>
#define FILENAME "test.pcm"
using namespace::std;
typedef struct WAVE_HEADER {
char chunk_id[4];
long chunk_size;
char format[4];
char fmt_chunk_id[4];
long fmt_chunk_size;
short format_tag;
short channels;
long sample_rate;
long avg_bytes_sec;
short block_align;
short bits_per_sample;
char data_chunk_id[4];
long data_size;
}WAVE_HEADER;
int main() {
ifstream pcmfile;
pcmfile.open(FILENAME, ios::binary);
WAVE_HEADER header;
pcmfile.read((char *)&header, sizeof(header));
cout << "Format: " << header.format << endl;
cout << "Channels: " << header.channels << endl;
cout << "Sample rate: " << header.sample_rate << endl;
pcmfile.close();
return 0;
}
这段 C++ 代码打开 'test.pcm' 文件,使用 ifstream 类型文件对象读取文件头部分内容,同时输出 PCM 文件的格式,通道数和采样率三个参数的值。
四、PCM文件预处理
由于 PCM 文件的数据文件通常较大,直接读取可能会导致内存不足或读取效率较低。在使用自己编写的程序分析 PCM 文件之前,可能需要进行一些预处理,以减少数据量并提高读写效率。以下是一个简单的 Python 代码段,使用 librosa 库将 PCM 文件处理成 Mel 频谱信息,从而方便进行音频信号分析和建模:
import librosa
import numpy as np
filename = 'test.pcm'
with open(filename, 'rb') as pcmfile:
pcmdata = np.frombuffer(pcmfile.read(), dtype='int16')
pcmdata = pcmdata.astype(np.float32)
pcmdata /= np.iinfo(np.int16).max
#预加重
pcmdata = librosa.preemphasis(pcmdata)
#进行短时傅里叶变化
stft = librosa.core.stft(pcmdata, hop_length=512, n_fft=2048)
#进行Mel变换
mel_basis = librosa.filters.mel(sr=8000, n_fft=2048, n_mels=80)
mel = np.dot(mel_basis, np.abs(stft)**2)
#取log ,使数据更加稳定
mel = librosa.core.amplitude_to_db(mel)
这段 Python 代码打开文件 ‘test.pcm’ ,读取文件内容,进行预加重处理,然后将其转换为浮点数形式,并进行短时傅里叶变换和 Mel 变换。 最后取log,制作 Mel 频谱信息。
五、结论
本文从文件格式和结构、使用已有软件、使用自己编写的程序、 PCM 文件预处理等多个方面介绍了 PCM 文件怎么打开。通过双击或使用 Python 语言的 librosa 库,我们可以方便地打开 PCM 文件并读取相关信息。 使用 C++ 或 Python 语言编写自己的程序,可以更灵活地处理 PCM 数字音频信号并进行相应的信号处理。