Python中使用sklearn进行特征降维的方法-编程学习网

特征降维

0维标量

1维向量

2维矩阵

概念

降维是指在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程

注：正是因为在进行训练的时候，我们都是使用特征进行学习，如果特征本身存在问题或者特征之间相关性较强，对于算法学习预测会影响较大

降维的两种方式：

特征选择主成分分析（可以理解为一种特征提取的方式）

特征选择

①定义

数据中包含冗余或相关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。

②方法

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联

方差选择法：低方差特征过滤
相关系数

Embedded(嵌入式)：算法自动选择特征（特征与目标值之间的关联）

决策树：信息熵、信息增益
正则化:L1、L2
深度学习：卷积等

③模块

sklearn.feature_selection

过滤式

①低方差特征过滤

删除低方差的一些特征

特征方差小：某个特征很多样本的值比较相近
特征方差大：某个特征很多样本的值都有差别

API

sklearn.feature_selection.VarianceThreshold(threshold=0.0)

-删除所有低方差特征
-Variance.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征

代码演示

from sklearn.feature_selection import VarianceThreshold
import pandas as pd
def variance_demo():
    #1.获取数据
    data=pd.read_csv("data.TXT")
    print("data:\n", data)
    #2.实例化一个转换器类
    transfer=VarianceThreshold(threshold=7)
    #3.调用fit_transform
    result=transfer.fit_transform(data)
    print("result:\n", result,result.shape)
    return None

②相关系数

皮尔逊相关系数（Pearson Correlation Coefficient）

反映变量之间相关关系密切程度的统计指标

公式

特点

相关系数的值介于-1与+1之间，即-1<=r<=+1,其性质如下：

当r>0时，表示两变量正相关，r<0时，两变量为负相关
当|r|=1时，表示两变量为完全相关，当r=0时，表示两变量间无相关关系
当0<|r|<1时，表示两变量存在一定程度的相关。且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱
一般可按三级划分：|r|<0.4为低度相关；0.4<=|r|<0.7为显著性相关；0.7<=|r|<1为高度线性相关

API

from scipy.stats import pearsonr
-x:array
-y:array
-Returns:(Pearson`s correlation coefficient,p-value)

代码演示

from scipy.stats import pearsonr
def p_demo():
    # 1.获取数据
    data = pd.read_csv("data.TXT")
    print("data:\n", data)
    # 2.计算两个变量之间的相关系数
    r=pearsonr(data["one"],data["two"])
    print("相关系数:\n", r)
    return None

如果特征与特征之间相关性很高，通过以下方法处理：

①选取其中一个

②加权求和

③主成分分析

定义

高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量

作用

是数据维数压缩，尽可能降低原数据维数（复杂度），损失少量信息

应用

回归分析或者聚类分析当中

API

sklearn.decomposition.PCA(n_components=None)

-将数据分解为较低维数空间
-n_components：
   ·小数：表示保留百分之多少的信息
   ·整数：减少到多少特征
-PCA.fit_transform(X)
   X:numpy array格式的数据[n_samples,n_features]
-返回值：转换后指定维度的array

使用

from sklearn.decomposition import PCA
def pca_demo():
    data=[[2,8,4,5],[6,3,0,8],[5,4,9,1]]
    #1.实例化一个转换器类
    transfer=PCA(n_components=2)
    #2.调用fit_transform
    result=transfer.fit_transform(data)
    print("result:\n",result)
    return None

到此这篇关于Python中使用sklearn进行特征降维的方法的文章就介绍到这了,更多相关Python sklearn特征降维内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

文章详情

Python中使用sklearn进行特征降维的方法

目录

特征降维

特征选择

过滤式

①低方差特征过滤

②相关系数

③主成分分析

软考中级精品资料免费领

相关文章

猜你喜欢

Python中使用sklearn进行特征降维的方法

Python中进行特征重要性分析的9个常用方法

Python中进行特征重要性分析的九个常用方法

使用python 进行区间取值的方法

postgresql使用filter进行多维度聚合的解决方法

Python中使用Queue和Condition进行线程同步的方法

Python中使用moviepy进行视频分割的实现方法

Linux中使用wget进行下载的方法

Python多进程并行编程实践中mpi4py的使用方法

Python中可变参数的使用方法和特点

react中props 的使用及进行限制的方法

Python使用Pycrypto库进行RSA加密的方法详解

Python使用scipy进行曲线拟合的方法实例

使用 Python 进行文件管理的四个聪明方法

使用Python进行二进制文件读写的简单方法(推荐)

Linux SysOps中使用SSH进行远程脚本执行的方法

Java中的线程如何使用使用join方法进行暂停

python中多进程和多线程的使用方法

Python使用LRU缓存策略进行缓存的方法步骤

使用Mixin设计模式进行Python编程的方法讲解