Skip to content

Latest commit

 

History

History
27 lines (24 loc) · 1.63 KB

File metadata and controls

27 lines (24 loc) · 1.63 KB

为什么要做特征选择?

  • 耗时:特征个数越多,分析特征、训练模型所需的时间就越长。
  • 过拟合:特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。
  • 共线性:单因子对目标的作用被稀释,解释力下降

从哪些方面可以做特征选择?

  • 方差,是的feature内的方向更大,对目标区分度提高更高贡献
  • 相关性,与区分目标有高相关的特征才有意义

既然说了两个方向,分别介绍一些吧

  • 方差
    • 移除低方差特征
      • 移除低方差特征是指移除那些方差低于某个阈值,即特征值变动幅度小于某个范围的特征,这一部分特征的区分度较差,我们进行移除
    • 考虑有值数据中的占比,异常数据的占比,正常范围数据过少的数据也可以移除
  • 相关性
    • 单变量特征选择:单变量特征是基于单一变量和目标y之间的关系,通过计算某个能够度量特征重要性的指标,然后选出重要性Top的K个特征。但是这种方式有一个缺点就是忽略了特征组合的情况
      • 皮尔森相关系数:
      • Fisher得分:
      • 假设检验
        • 卡方检验
        • ANOVA
      • 熵检验
        • 互信息熵
          • 度量两个变量之间的相关性,互信息越大表明两个变量相关性越高;互信息为0,两个变量越独立
        • KL散度
        • 相对熵