您的位置:

详解datasets.load_iris()

一、前言

在机器学习领域中,常见的操作之一是数据集的预处理。datasets.load_iris()是机器学习领域中提供的一种常用数据集,它是一个有关鸢尾花的数据集。本文将从多个方面对datasets.load_iris()进行详细的阐述,希望能够帮助读者更好地理解该数据集。

二、数据集概述

数据集是指一组数据实例的集合。在机器学习领域中,数据集通常用于训练和测试模型。datasets.load_iris()数据集是一个包含150个数据实例的数据集,每个数据实例包含该鸢尾花的4个属性,以及该鸢尾花所属的品种。该数据集共有3中不同的品种,每个品种有50个数据实例。

    from sklearn.datasets import load_iris
    iris = load_iris()
    print(iris.keys())
    #dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

首先我们需要导入load_iris()模块,然后我们可以通过打印iris.keys()来确定该数据集中包含的所有信息。运行代码后,可以看到该数据集中包含以下6个键值:

  • 'data':一个150x4的numpy数组,包含150个数据实例的属性值;
  • 'target':一个长度为150的numpy数组,包含每个数据实例所属的品种;
  • 'target_names':一个长度为3的numpy数组,包含每个品种的名称;
  • 'DESCR':一个字符串,包含该数据集的说明文档;
  • 'feature_names':一个长度为4的numpy数组,包含每个属性的名称;
  • 'filename':一个字符串,包含该数据集存储的文件名。

三、数据集属性

在使用datasets.load_iris()数据集时,我们需要了解该数据集的每个属性的含义。以下是每个属性的详细介绍:

1. 'data'

'data'属性是一个包含150个数据实例的150x4 numpy数组。每个数据实例包含以下4个属性:

  • 萼片长度(cm)
  • 萼片宽度(cm)
  • 花瓣长度(cm)
  • 花瓣宽度(cm)
    print(iris['data'])
    #[[5.1 3.5 1.4 0.2]
    # [4.9 3.  1.4 0.2]
    # [4.7 3.2 1.3 0.2]
    # ...
    # [6.5 3.  5.2 2. ]
    # [6.2 3.4 5.4 2.3]
    # [5.9 3.  5.1 1.8]]

2. 'target'

'target'属性是一个包含150个数据实例的长度为150的numpy数组。每个数据实例所属的品种标签是从0到2的一个整数,分别表示以下品种:

  • 0:山鸢尾花(Iris setosa)
  • 1:变色鸢尾花(Iris versicolor)
  • 2:维吉尼亚鸢尾花(Iris virginica)
    print(iris['target'])
    #[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
    # 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
    # 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2
    # 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]

3. 'target_names'

'target_names'属性是一个包含3个目标类标签的numpy数组,分别表示以下品种:

  • 0:山鸢尾花(Iris setosa)
  • 1:变色鸢尾花(Iris versicolor)
  • 2:维吉尼亚鸢尾花(Iris virginica)
    print(iris['target_names'])
    #['setosa' 'versicolor' 'virginica']

4. 'DESCR'

'DESCR'属性是一个字符串,包含该数据集的详细描述信息。

    print(iris['DESCR'])
    #Iris Plants Database
    #====================
    #
    #Notes
    #-----
    #Data Set Characteristics:
    #    :Number of Instances: 150 (50 in each of three classes)
    #    :Number of Attributes: 4 numeric, predictive attributes and the class
    #    :Attribute Information:
    #        - sepal length in cm
    #        - sepal width in cm
    #        - petal length in cm
    #        - petal width in cm
    #        - class:
    #                - Iris Setosa
    #                - Iris Versicolour
    #                - Iris Virginica
    #    :Summary Statistics:
    #    ...

5. 'feature_names'

'feature_names'属性是一个包含4个属性名称的numpy数组,分别是:('sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)')

    print(iris['feature_names'])
    #['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

四、数据集应用

数据集是机器学习领域中不可或缺的部分之一。使用datasets.load_iris()数据集可以对分类问题进行训练和测试。以下是一个数据集的使用示例,使用了train_test_split将数据集分成了训练集和测试集:

    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    
    iris = load_iris()
    X = iris.data
    y = iris.target
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

上述代码中,我们首先导入load_iris()模块。然后,我们将整个数据集的数据部分('data')赋给X,将整个数据集的目标变量部分('target')赋给y。接下来,我们使用train_test_split将数据集分为训练集和测试集。在这个例子中,数据集被分为80%的训练集和20%的测试集。

五、结语

本文对datasets.load_iris()数据集进行了深入的介绍,包括数据集概述、数据集属性和数据集应用。此外,我们也提供了一个使用数据集的示例。希望本文能够对读者在机器学习领域有所帮助。