您的位置:

Python机器学习必备:sklearn数据集大全

在机器学习领域,数据集是非常重要的。它们是用来训练和测试模型的基础。从简单的线性回归到复杂的深度神经网络,每个机器学习算法都需要数据集。 在Python中,scikit-learn(sklearn) 是最受欢迎的机器学习库之一,它内置了许多常用的数据集。

一、Iris数据集

Iris数据集是基本的多变量数据集之一,也是分类问题中最常用的数据集之一。


from sklearn.datasets import load_iris 

iris_dataset = load_iris()

print("Keys of iris_dataset: \n", iris_dataset.keys())
print(iris_dataset['DESCR'])

输出结果:


Keys of iris_dataset: 
 dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
iris_dataset['DESCR'])

以上代码展示了如何通过加载iris数据集来引入iris数据。在输出结果中,可以看到数据集的键,譬如包含样本数据的‘data’,包含标签的‘target_names’,以及数据集的描述信息‘DESCR’等等。

二、Digits数据集

Digits数据集包含了8x8像素的手写数字图像。目标是根据给定的图像将手写数字数据分为10个不同的类。


from sklearn.datasets import load_digits

digits_data = load_digits()

print("Keys of digits_data: \n", digits_data.keys())
print(digits_data['DESCR'])

输出结果:


Keys of digits_data: 
 dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])
.. _digits_dataset:
...

以上代码展示了如何通过加载digits数据集来引入digits数据。在输出结果中,可以看到数据集的键和数据集的描述信息‘DESCR’等等。

三、Titanic数据集

Titanic数据集是来自于Kaggle的常用的数据集之一。它包含了1912年泰坦尼克号船员和乘客的详细信息,包括船上乘客的姓名、性别、年龄、票价和旅行舱位等数据。


import pandas as pd

titanic_data = pd.read_csv('titanic.csv')

print("Keys of titanic_data: \n", titanic_data.keys())
titanic_data.head()

输出结果:


Keys of titanic_data: 
 Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
   PassengerId  Survived  Pclass  ...            Ticket     Fare Cabin
0            1         0       3  ...         A/5 21171   7.2500   NaN
1            2         1       1  ...          PC 17599  71.2833   C85
2            3         1       3  ...  STON/O2. 3101282   7.9250   NaN
3            4         1       1  ...            113803  53.1000  C123
4            5         0       3  ...            373450   8.0500   NaN

[5 rows x 12 columns]

以上代码展示了如何通过pandas库来读取titanic数据,并打印出前5行的数据。此外,也可以看到所有列的名称。

四、Breast Cancer数据集

Breast Cancer数据集包含了良性和恶性乳腺肿瘤的特征。这些特性已被转换为10个实值特征。此数据集是一个二分类的数据集,其中良性样本记作0,恶性样本记作1。


from sklearn.datasets import load_breast_cancer

cancer_data = load_breast_cancer()

print("Keys of cancer_data: \n", cancer_data.keys())
print(cancer_data['DESCR'])

输出结果:


Keys of cancer_data: 
 dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
Breast Cancer Wisconsin (Diagnostic) Database

Notes
-----
Data Set Characteristics:...

以上代码展示了如何通过加载breast cancer数据集来引入相关数据。在输出结果中,可以看到数据集的键和数据集的描述信息‘DESCR’等等。

总结

通过以上四个数据集的介绍,可以了解到在Python中,利用sklearn等库可以轻松地加载数据集,并进行相应的数据处理和建模等工作。对于机器学习工作者而言,在使用算法进行建模之前,需要确保自己使用的数据集是否合理,每个数据集都需要充分理解其含义,才可以在使用时进行了解和解释。