数据科学家需要了解的5种采样方法
我们现在可以使用以下方法进行随机过采样和欠采样:
使用 imbalanced-learn 进行欠采样和过采样 imbalanced-learn(imblearn)是一个用于解决不平衡数据集问题的 python 包,它提供了多种方法来进行欠采样和过采样。 a. 使用 Tomek Links 进行欠采样: imbalanced-learn 提供的一种方法叫做 Tomek Links。Tomek Links 是邻近的两个相反类的例子。 在这个算法中,我们最终从 Tomek Links 中删除了大多数元素,这为分类器提供了一个更好的决策边界。
b. 使用 SMOTE 进行过采样: 在 SMOE(Synthetic Minority Oversampling Technique)中,我们在现有元素附近合并少数类的元素。
imbLearn 包中还有许多其他方法,可以用于欠采样(Cluster Centroids, NearMiss 等)和过采样(ADASYN 和 bSMOTE)。 结论 算法是数据科学的生命线。 抽样是数据科学中的一个重要课题,但我们实际上并没有讨论得足够多。 有时,一个好的抽样策略会大大推进项目的进展。错误的抽样策略可能会给我们带来错误的结果。因此,在选择抽样策略时应该小心。 如果你想了解更多有关数据科学的知识,我想把 Andrew Ng 的这门优秀课程推荐给你,这个课程是我入门数据科学的法宝,你一定要去看看。 本文转自雷锋网,如需转载请至雷锋网官网申请授权。
(编辑:我爱故事小小网_铜陵站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |