在机器学习领域,数据集是非常重要的。它们是用来训练和测试模型的基础。从简单的线性回归到复杂的深度神经网络,每个机器学习算法都需要数据集。 在Python中,scikit-learn(sklearn) 是最受欢迎的机器学习库之一,它内置了许多常用的数据集。
一、Iris数据集
Iris数据集是基本的多变量数据集之一,也是分类问题中最常用的数据集之一。
from sklearn.datasets import load_iris
iris_dataset = load_iris()
print("Keys of iris_dataset: \n", iris_dataset.keys())
print(iris_dataset['DESCR'])
输出结果:
Keys of iris_dataset:
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
iris_dataset['DESCR'])
以上代码展示了如何通过加载iris数据集来引入iris数据。在输出结果中,可以看到数据集的键,譬如包含样本数据的‘data’,包含标签的‘target_names’,以及数据集的描述信息‘DESCR’等等。
二、Digits数据集
Digits数据集包含了8x8像素的手写数字图像。目标是根据给定的图像将手写数字数据分为10个不同的类。
from sklearn.datasets import load_digits
digits_data = load_digits()
print("Keys of digits_data: \n", digits_data.keys())
print(digits_data['DESCR'])
输出结果:
Keys of digits_data:
dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])
.. _digits_dataset:
...
以上代码展示了如何通过加载digits数据集来引入digits数据。在输出结果中,可以看到数据集的键和数据集的描述信息‘DESCR’等等。
三、Titanic数据集
Titanic数据集是来自于Kaggle的常用的数据集之一。它包含了1912年泰坦尼克号船员和乘客的详细信息,包括船上乘客的姓名、性别、年龄、票价和旅行舱位等数据。
import pandas as pd
titanic_data = pd.read_csv('titanic.csv')
print("Keys of titanic_data: \n", titanic_data.keys())
titanic_data.head()
输出结果:
Keys of titanic_data:
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
dtype='object')
PassengerId Survived Pclass ... Ticket Fare Cabin
0 1 0 3 ... A/5 21171 7.2500 NaN
1 2 1 1 ... PC 17599 71.2833 C85
2 3 1 3 ... STON/O2. 3101282 7.9250 NaN
3 4 1 1 ... 113803 53.1000 C123
4 5 0 3 ... 373450 8.0500 NaN
[5 rows x 12 columns]
以上代码展示了如何通过pandas库来读取titanic数据,并打印出前5行的数据。此外,也可以看到所有列的名称。
四、Breast Cancer数据集
Breast Cancer数据集包含了良性和恶性乳腺肿瘤的特征。这些特性已被转换为10个实值特征。此数据集是一个二分类的数据集,其中良性样本记作0,恶性样本记作1。
from sklearn.datasets import load_breast_cancer
cancer_data = load_breast_cancer()
print("Keys of cancer_data: \n", cancer_data.keys())
print(cancer_data['DESCR'])
输出结果:
Keys of cancer_data:
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
Breast Cancer Wisconsin (Diagnostic) Database
Notes
-----
Data Set Characteristics:...
以上代码展示了如何通过加载breast cancer数据集来引入相关数据。在输出结果中,可以看到数据集的键和数据集的描述信息‘DESCR’等等。
总结
通过以上四个数据集的介绍,可以了解到在Python中,利用sklearn等库可以轻松地加载数据集,并进行相应的数据处理和建模等工作。对于机器学习工作者而言,在使用算法进行建模之前,需要确保自己使用的数据集是否合理,每个数据集都需要充分理解其含义,才可以在使用时进行了解和解释。