LFW数据集的详细介绍

发布时间:2023-05-18

LFW数据集

“LFW(Labeled Faces in the Wild)”是一个面向计算机视觉领域的人脸识别数据集,由美国马里兰大学的Gary B. Huang、Liang Chen 和David J. Kriegman三位教授于2007年创立。该数据集包含了13233张人脸图片,人物数量为5749人。这些人物来自互联网图片、电视剧和电影中的面部特征以及面部特征数据库。 数据集中每个人物都有一至多个人脸照片。每张图片大小为250*250像素,256个灰度级。数据集的总大小超过1GB,适用于图像识别、目标检测、人脸识别等研究领域。

LFW数据集训练集和测试集

数据集被划分为两个不同的部分:训练集和测试集。训练集分为两个部分:要在其中训练人脸识别系统的面部特征和一个无用的图像集合。同时,测试集包含了每个人物的多张不同的照片,用于测试人脸识别的精度,数据集被广泛使用于研究人脸识别和验证算法。 训练集一共包含了1680个人,其中有13243张人脸图像。测试集包含了2952个人物,其中超过6000张人脸图像。

LFW数据集介绍

LFW数据集中人脸图像非常大且难以处理,需要在数据集的处理上具有挑战性。此外,该数据集的挑战还在于含有不同年龄、种族、光照、姿势和表情的多种人脸。 LFW是针对缺少大规模人脸数据集的研究人员而设计,也是精度优越的人脸识别算法所必需的数据集。人脸识别是一种比较成熟的领域,在人脸识别研究领域,LFW数据集是非常有代表性的数据集。

LFW数据集下载

下载链接:http://vis-www.cs.umass.edu/lfw/LFW.zip 如果需要获得数据集中原始图片的下载信息,可以前往http://www.cs.columbia.edu/CAVE/databases/pubfig/download/下载PubFig数据集。

LFW数据集可视化

训练集和测试集中的人脸图像是已经按照ID进行分类,并有名称标签的文件夹中。因此,可以轻松地将标签添加到人脸识别的测试脚本中。使用Python的 Matplotlib 包和 NumPy 包,可以可视化lfw数据集中的人脸图像。

import matplotlib.pyplot as plt
import numpy as np
import os
from PIL import Image
path = 'path/to/dataset/train'
folders = sorted(os.listdir(path))
images = []
names = []
for folder in folders:
    for filename in os.listdir(os.path.join(path, folder)):
        names.append(folder)
        img = np.array(Image.open(os.path.join(path, folder, filename)))
        images.append(img)
fig, axes = plt.subplots(2, 5, figsize=(15, 6))
for i, ax in enumerate(axes.flat):
    ax.imshow(images[i], cmap='gray')
    ax.set_title(names[i])
plt.show()

LFW数据集怎么用

lfw数据集通过scikit-learn中相应的API提供了对Python代码的支持。可以用如下代码加载数据:

from sklearn.datasets import fetch_lfw_people
lfw = fetch_lfw_people(min_faces_per_person=70, resize=0.4)

这里,min_faces_per_person参数定义了数据集中要求的人脸图像的最小数量,resize是图像大小的缩放比例。 lfw数据集还有更多的特征,比如可以设置像素的最大/最小值,将测试集转换为数目值,并可以选择不同的训练和测试数据,以达到更好的结果。

LFW数据集标签格式

lfw数据集的标签格式有两个版本:名称或数字。例如:

lfw_people.target_names = [
    'Alejandro Toledo', 'Alvaro Uribe', 'Amelie Mauresmo', 'Andre Agassi',
    'Angelina Jolie', 'Ariel Sharon', 'Arnold Schwarzenegger', 'Atal Bihari Vajpayee',
    'Bill Clinton', 'Carlos Menem', 'Colin Powell', 'David Beckham', 'Donald Rumsfeld',
    'George Robertson', 'George W Bush', 'Gerhard Schroeder', 'Gloria Macapagal Arroyo',
    'Gray Davis', 'Guillermo Coria', 'Hamid Karzai', 'Hans Blix', 'Hugo Chavez',
    'Igor Ivanov', 'Jack Straw', 'Jacques Chirac', 'Jean Chretien', 'Jennifer Aniston',
    'Jennifer Capriati', 'Jennifer Lopez', 'Jeremy Greenstock', 'Jiang Zemin',
    'John Ashcroft', 'John Negroponte', 'Jose Maria Aznar', 'Juan Carlos Ferrero',
    'Junichiro Koizumi', 'Kofi Annan', 'Laura Bush', 'Lindsay Davenport',
    'Lleyton Hewitt', 'Luiz Inacio Lula da Silva', 'Mahmoud Abbas', 'Megawati Sukarnoputri',
    'Michael Bloomberg', 'Naomi Watts', 'Nestor Kirchner', 'Paul Bremer',
    'Pete Sampras', 'Recep Tayyip Erdogan', 'Ricardo Lagos', 'Roh Moo-hyun',
    'Rudolph Giuliani', 'Saddam Hussein', 'Serena Williams', 'Silvio Berlusconi',
    'Tiger Woods', 'Tom Daschle', 'Tom Ridge', 'Tonino Picula', 'Tony Blair',
    'Vicente Fox', 'Vladimir Putin', 'Winona Ryder', 'Vicente Fox'
]
n_classes = lfw_people.target_names.shape[0]

例如,讲解标签名导入到变量中:

from sklearn.datasets import fetch_lfw_people
lfw_people = fetch_lfw_people(min_faces_per_person=70, resize=0.4)
lfw_people.target_names