一、按照是否有标签对数据进行分类
有监督学习需要标记好训练数据,在训练集中,输入和相应输出都是已知的,训练模型时需要使得模型输出与实际输出一致。而在无监督学习中,训练数据不标记样本标签,算法需要自己学习隐含在数据中的模式,例如聚类、关联规则挖掘、主成分分析等。最常用的无监督学习方法是聚类,其中 K-means算法是一种常见的聚类算法。以鸢尾花数据集为例,进行有监督学习和无监督学习的比较:
from sklearn.datasets import load_iris from sklearn.cluster import KMeans iris_data = load_iris().data # 有监督学习例子 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(iris_data, load_iris().target, test_size=0.3, random_state=42) from sklearn.tree import DecisionTreeClassifier clf = DecisionTreeClassifier(random_state=42) clf.fit(X_train, y_train) # 无监督学习例子 kmeans = KMeans(n_clusters=3, random_state=42).fit(iris_data)
二、按照是否有明确的目标进行分类
有监督学习是解决分类、回归等问题的一种方法,具有明确的目标,即预测目标值。在训练过程中,标记好的输出将作为模型训练的目标值。而无监督学习则不具有特定的目标,它主要是用来发掘数据的内在结构、分布规律、特征提取等。因此无监督学习更适合进行数据探索、特征提取等方面的工作,例如对于一个市场上的用户数据进行无监督学习可以得到用户的兴趣偏好。
三、按照是否需要预测新数据进行分类
如果需要对新数据进行预测,就需要使用有监督学习中训练好的模型进行预测。而无监督学习的主要目的是使用潜在的结构和模式来描述已有数据,因此它不能直接对新数据进行预测。但是在一些情况下,无监督学习可以用来减少训练数据的维度,然后使用有监督的学习方法建立分类器。例如使用主成分分析(PCA)对数据降维后再进行有监督学习获取模型,可以提高分类的准确性。
from sklearn.decomposition import PCA from sklearn.svm import SVC # 降维后使用有监督学习 pca = PCA(n_components=2).fit(iris_data) transformed = pca.transform(iris_data) X_train, X_test, y_train, y_test = train_test_split(transformed, load_iris().target, test_size=0.3, random_state=42) clf = SVC(random_state=42) clf.fit(X_train, y_train)
四、按照模型训练方式进行分类
有监督学习是指由已知的一组输入和输出数据训练一个模型,使得该模型能够从输入数据中预测或分类未知数据的标签或输出。训练方式可以是批量梯度下降、随机梯度下降、牛顿法等。而无监督学习是利用未标记的训练数据,从中学习可以描述数据分布、结构、特征等的模型,训练方式可以是自编码器、生成对抗网络(GAN)、自然语言处理(NLP)等。
from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import CountVectorizer from sklearn.decomposition import LatentDirichletAllocation newsgroups_data = fetch_20newsgroups(subset='all', categories=['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc']) vectorizer = CountVectorizer(stop_words='english', max_features=1000, max_df=0.5, min_df=2) tfidf = vectorizer.fit_transform(newsgroups_data['data']) # 使用 Latent Dirichlet Allocation (LDA) 进行无监督学习 lda = LatentDirichletAllocation(n_components=3, learning_method='batch', random_state=42) lda.fit(tfidf)