python相关性分析后怎样删除特征_震惊！数据分析还能这样做？

原标题：震惊！数据分析还能这样做？

数据分析概述

数据分析完整工作流程

关于数据分析的大体流程这里以图形的形式展现给大家，就不做过多的讲述。

数据探索与相关性分析

这一部分是直接从数据分析工作流程中的数据整理与清洗开始。

数据探索，探索性数据分析(Exploratory Data Analysis)，简称EDA。传统的统计方法是先假定数据服从某种分布，然后运用这种模型进行预测，以概率论为基础，做参数检验。而EDA则是强调数据，“抛开”概率的理论，从数据出发，主要手段是汇总统计，可视化。

在进行EDA时，我们可以分为三个阶段，分别是：

数据概况分析

单变量分析

多变量分析

用图形来展示如下：

接下来跟大家简单的分享一下数据探索性分析的流程，下面的所有过程都会使用到Python的pandas包。

数据概况分析

在数据概况分析阶段，我们主要了解数据整体的基本情况，比如数据的离散程度，数据的分布等，以及数据中是否存在异常值/缺失值。这里以二手车价格预测的数据来做个例子。(代码看不懂没关系，看结果就好，不妨碍理解)

结果如下图所示。

count：该属性下数据的总数；

mean：平均数；

std：标准差，数据的偏离均值程度；

min~max：中间是四分位数，用于判断样本数据的分布情况和离群值等；

注：上面的描述统计针对的是数值型的变量，不包含类别型变量。

对于类别型的属性，首先查看一下这个属性有什么类别，如果类别数量不多的话，后面可以考虑将它转变为哑变量方便分析和建模。

类别型的统计描述与数值型的数据不一样，具体如下图所示。

类别型数据描述统计的参数含义是：

unique: 唯一值数

top: 频数最高者

freq: 最高频数

单变量分析

连续型数值变量分析

这里我们拿二手车数据的price字段来举个例子，见下图。

无论是单变量分析还是多变量分析阶段，都需要做大量的图对变量进行分析，因为通过图形的展示能够更加的直观看到问题所在。除了上面的直方图，我们还可以采用箱线图对数据进行可视化分析。

通过可视化分析后，如果数据存在离群值，我们可以看看它在数据中的占比，再酌情删除，避免其对后续的模型构建造成影响。

如果变量数据存在缺失值，我们会看看缺失值占比，如果占比不高，我们可以通过填充均值的方式(适用于数值型(连续型)变量)来对缺失值进行填充。

离散型变量分析

对于离散型变量，我们可以用value_counts()函数来统计各类别数量和占总数比，也可以用直方图来进行可视化分析，如下图所示，X轴即为离散型变量的值。

如果离散型数据的类别过多，我们可以用先验知识查看各类别型数据，找到其区分点，对其进行一个特征衍生。

举个例子，如下，是邮箱属性下的类别数值。

假设通过先验知识，我们得知到某个邮箱类别是匿名的，那么我们就可以将这个邮箱属性里的类别分为两类，一类是无匿名的，一类是匿名的，经过处理后，便衍生除了一个新的特征——邮箱是否匿名，同时也方便了对值多的离散型变量的处理。