一、基础概念
非独立同分布,英文简称Non-identically Distributed(NID), 实际上就是指不是独立同分布的概率分布函数。
简单来说,如果一个数据集中的每一个元素都是从同一个概率分布中随机抽取的,则称这个数据集的分布为独立同分布(i.i.d.),通常在机器学习中假设训练样本和测试样本都是独立同分布的。
而非独立同分布则相反,指数据集中的元素的分布不同。比如,人们接受教育受益程度的分布、家庭收入的分布、招聘时面试者能力的分布等等,都可能会出现非独立同分布的情况。
二、影响因素
那么,为什么会产生非独立同分布呢?其实原因非常多,可以从以下几个角度去考虑。
1.选取数据的方式
一方面,数据的抽取方式可能与样本的真实分布不同,比如对某些特定样本情况的过/欠采样;另一方面,若样本不是所有情况下都大量而随机采样,而是针对特定情况精选的,也会导致样本的分布偏差。
2.系统固定因素
与数据采集方式无关的因素,比如观测器、机器、人、不同的学科背景和思维方式等,可能会对数据采集产生非独立同分布的问题。
3.根本性问题
除了上述外部因素,还有一些根本性的问题会导致非独立同分布的产生,比如一些假设模型本身就不是适用于偏态分布的数据,或是对数据的预处理和清洗不充分等等。
三、解决方案
非独立同分布对于机器学习的影响是无法避免的,我们应该想办法尽量减小它对机器学习模型的影响。
1.数据增强(Data augmentation)
通过数据增强方式扩充数据集,使得数据分布更加均衡。比如说,对于被欠采样的数据,我们可以使用SMOTE等生成对抗网络GAN实现样本增强。
2.特征工程(Feature engineering)
通过对特征的选择、提取和创造来提高特征表达的能力。从而能够在数据集数量不一致的情况下,让模型运用更多地信息来正确地做出决策。
3.领域适应(Domain adaptation)
领域适应是一种方法,可以基于数据的标签进行迁移式学习,用源域数据来帮助训练目标域数据。用于缓解目标域数据占比较少时遇到的问题。
四、代码示例
# 数据增强 from imblearn.over_sampling import SMOTE X_resampled, y_resampled = SMOTE().fit_resample(X, y) # 特征工程 from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer() X_vectorized = vectorizer.fit_transform(X_text) # 领域适应 from sklearn.cross_decomposition import PLSCanonical from sklearn.metrics import make_scorer from sklearn.model_selection import GridSearchCV param_grid = {'n_components':[2,4,8,16,32]} plsca = PLSCanonical(scale=False) grid_search = GridSearchCV(plsca, cv=5, param_grid=param_grid, scoring=make_scorer(mean_squared_error)) grid_search.fit(X_source, y_source) plsca = grid_search.best_estimator_ plsca.fit(X_target)