【特征选择】

2019年01月27日

Author: Guofei

文章归类: 3-1-降维，文章编号: 341

版权声明：本文作者是郭飞。转载随意，但需要标明原文链接，并通知本人
原文链接：https://www.guofei.site/2019/01/27/feature_selection.html

Edit

对于当前学习任务的特征，叫做 relevant feature，
没什么用的特征叫做 irrelevant feature，
从特定特征集合中选取相关特征子集的过程，成为 feature selection

子集搜索

前进法
每次增加一个feature进入模型，看哪feature对应的评估指标增加最大，如果评估指标不再增加，就停止。
后退法
每次剔除一个最不重要的feature
逐步法
每引入一个feature，对已经进入模型的feature组个检验，直到最后。有可能产生死循环，所以进入和剔除时对显著性水平的要求不同，从而防止死循环。

其它特征选取法

主要分三类：

过滤式（filter）
包裹式（wrapper）
嵌入式（embedding）

过滤式选择

Relief（Relevant Features）[Kira and Rendell, 1992]是一种经典的过滤式选择法。
设计思路是，设计一个“相关统计量”来度量特征的重要性。

以二分类问题为例，{(x1,y1),(x2,y2),...,(xm,ym)}{(x1,y1),(x2,y2),...,(xm,ym)}对于某一个样本xixi，找到同类样本的最近邻xi,nhxi,nh,异类样本的最近邻xi,nmxi,nm
第j个feature的相关统计量定义为：
δj=∑i−diff(xji,xji,nh)2+diff(xji,xji,nm)2δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2

找到最大的n个相关统计量（或者大于某个阈值的相关统计量），可以作为 relevant feature

包裹式选择

LVW（Las Vegas Wrapper）是一种典型的包裹式特征选择方法
设计思路是，直接把下一步的学习器作为特征选取标准。带来的缺点是运行速度慢。

伪代码如下

# 输入：
# 数据集D
# 特征集A
# 学习算法 L
# 停止条件T

E=np.inf
A_output=A
t=0
while t<T:
  随机产生特征子集A_tmp
  E_tmp=CrossValidation(L,D,A_tmp) # 交叉验证得到的算法L的性能
  if E_tmp<=E:
    E=E_tmp
    A_output=A_tmp
    t=0
  else:
    t+=1

嵌入式

典型的是L1和L2正则化

您的支持将鼓励我继续创作！

【特征选择】

【特征选择】

子集搜索

其它特征选取法

过滤式选择

包裹式选择

嵌入式

Recommend

【Python标准库】heapq&bisect

涨停股复盘丨中报业绩炒作逐渐展开（短线）

文本分词并画词云.

【Elo模型】理论篇

【Python】爬虫

【NLP】【Python】新词发现

【模糊论】基本概念

AMD 3D Stacks SRAM Bumplessly

【Python】运行效率研究.

【matplotlib】设置

About Joyk