一、前言
在机器学习领域中,常见的操作之一是数据集的预处理。datasets.load_iris()是机器学习领域中提供的一种常用数据集,它是一个有关鸢尾花的数据集。本文将从多个方面对datasets.load_iris()进行详细的阐述,希望能够帮助读者更好地理解该数据集。
二、数据集概述
数据集是指一组数据实例的集合。在机器学习领域中,数据集通常用于训练和测试模型。datasets.load_iris()数据集是一个包含150个数据实例的数据集,每个数据实例包含该鸢尾花的4个属性,以及该鸢尾花所属的品种。该数据集共有3中不同的品种,每个品种有50个数据实例。
from sklearn.datasets import load_iris iris = load_iris() print(iris.keys()) #dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])
首先我们需要导入load_iris()模块,然后我们可以通过打印iris.keys()来确定该数据集中包含的所有信息。运行代码后,可以看到该数据集中包含以下6个键值:
- 'data':一个150x4的numpy数组,包含150个数据实例的属性值;
- 'target':一个长度为150的numpy数组,包含每个数据实例所属的品种;
- 'target_names':一个长度为3的numpy数组,包含每个品种的名称;
- 'DESCR':一个字符串,包含该数据集的说明文档;
- 'feature_names':一个长度为4的numpy数组,包含每个属性的名称;
- 'filename':一个字符串,包含该数据集存储的文件名。
三、数据集属性
在使用datasets.load_iris()数据集时,我们需要了解该数据集的每个属性的含义。以下是每个属性的详细介绍:
1. 'data'
'data'属性是一个包含150个数据实例的150x4 numpy数组。每个数据实例包含以下4个属性:
- 萼片长度(cm)
- 萼片宽度(cm)
- 花瓣长度(cm)
- 花瓣宽度(cm)
print(iris['data']) #[[5.1 3.5 1.4 0.2] # [4.9 3. 1.4 0.2] # [4.7 3.2 1.3 0.2] # ... # [6.5 3. 5.2 2. ] # [6.2 3.4 5.4 2.3] # [5.9 3. 5.1 1.8]]
2. 'target'
'target'属性是一个包含150个数据实例的长度为150的numpy数组。每个数据实例所属的品种标签是从0到2的一个整数,分别表示以下品种:
- 0:山鸢尾花(Iris setosa)
- 1:变色鸢尾花(Iris versicolor)
- 2:维吉尼亚鸢尾花(Iris virginica)
print(iris['target']) #[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 # 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 # 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 # 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
3. 'target_names'
'target_names'属性是一个包含3个目标类标签的numpy数组,分别表示以下品种:
- 0:山鸢尾花(Iris setosa)
- 1:变色鸢尾花(Iris versicolor)
- 2:维吉尼亚鸢尾花(Iris virginica)
print(iris['target_names']) #['setosa' 'versicolor' 'virginica']
4. 'DESCR'
'DESCR'属性是一个字符串,包含该数据集的详细描述信息。
print(iris['DESCR']) #Iris Plants Database #==================== # #Notes #----- #Data Set Characteristics: # :Number of Instances: 150 (50 in each of three classes) # :Number of Attributes: 4 numeric, predictive attributes and the class # :Attribute Information: # - sepal length in cm # - sepal width in cm # - petal length in cm # - petal width in cm # - class: # - Iris Setosa # - Iris Versicolour # - Iris Virginica # :Summary Statistics: # ...
5. 'feature_names'
'feature_names'属性是一个包含4个属性名称的numpy数组,分别是:('sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)')
print(iris['feature_names']) #['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
四、数据集应用
数据集是机器学习领域中不可或缺的部分之一。使用datasets.load_iris()数据集可以对分类问题进行训练和测试。以下是一个数据集的使用示例,使用了train_test_split将数据集分成了训练集和测试集:
from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split iris = load_iris() X = iris.data y = iris.target X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
上述代码中,我们首先导入load_iris()模块。然后,我们将整个数据集的数据部分('data')赋给X,将整个数据集的目标变量部分('target')赋给y。接下来,我们使用train_test_split将数据集分为训练集和测试集。在这个例子中,数据集被分为80%的训练集和20%的测试集。
五、结语
本文对datasets.load_iris()数据集进行了深入的介绍,包括数据集概述、数据集属性和数据集应用。此外,我们也提供了一个使用数据集的示例。希望本文能够对读者在机器学习领域有所帮助。