很高兴,又与大家在 data2art 见面了。上次的第一篇文章有朋友反映说太长,所以这一期,关于探索性数据分析,我们将分为上篇、中篇、下篇这三个短篇:

  1. 上篇 • 初识

    探索性分析是什么?目的为何?

  2. 中篇 • 方法

    EDA具体的分析方法是什么?单变量分析、多变量分析中定量方法和图形化方法有哪些?

  3. 下篇 • 实践

    实际数据的分析流程是什么?讲解如何使用 Python 一步步分析具体的实例。(如果需要R的同学,可以给我们留言,我们会考虑也写R代码)

本 EDA 系列文章的目的:如果你现在拿到数据之后,只是随意的分析探索,没有一个流程模式。读完本系列文章之后,当你再次面对数据,你将清楚的知道自己应该做些什么。知道数据的类型有哪些,不同的类型可以使用什么样的分析方法,可以从数据中得到什么样的结论。


探索性数据分析——数据科学中的”福尔摩斯”

如果把数据科学比作一门武林绝学,那么探索性数据分析就是其中的基础招式,只有扎扎实实地修炼好这一招一式,才能在未来学习具体的功法时游刃有余。—— 导语

1977 年当代著名的统计学家 John W. Tukey 发布了一本名为《Exploratory Data Analysis》[1] 的书籍,从此探索性数据分析 ( Exploratory Data Analysis, EDA ) 慢慢地进入了大众的视野。到21世纪的今天,随着数据量的爆炸式增长,探索性数据分析已经成为了大数据领域中数据分析的主流方法。EDA与经典统计数据非常不同。它不关注于拟合模型,参数估计或假设检验,而是关注数据本身的信息。和历经久远的传统统计方法相比,这个年轻的探索性数据分析方法,为何能够脱颖而出呢?

图片来源 https://www.bell-labs.com/claude-shannon/assets/images/math/tukey-portrait.png

探索性数据分析的目的

我们思量了多种 EDA 的定义和其实际使用情况后[1],认为探索性数据分析的具体目的如下:

  1. 检测异常值和缺失值
  2. 发掘特征变量之间的关系
    • 特征变量与目标变量之间的关系
    • 除目标变量外,特征变量彼此之间的关系
  3. 提取重要的特征变量
  4. 测试基本的假设
  5. 初步选择合适的模型

因为在大多数 EDA 中,都主要关注于前三点。所以,在此我们也只重点关注前三点内容,具体地解释每一点会提出哪一些问题。

检测异常值和缺失值

异常值和缺失值都会对后期的模型产生影响,例如线性模型中的异常值,会影响线性回归方程的选择。

图片来源 https://datascienceplus.com/wp-content/uploads/2016/12/outliers_effect-490x245.png

解答问题是:

缺失值概念很好理解,重点在于发现存在缺失值之后,应该如何处理。通常有两种方法,一种是删除缺失值数据;另一种是,估计可能的值,然后填充缺失值。数据集中存在异常的数据。例如,对于年龄数据,小于0的数据,显然是异常的。异常值通常需要删除。

发掘特征变量之间的关系

解答问题是:

提取重要的特征变量

对于目标问题而言,如何判断哪些特征变量是重要的?总的来说,与目标变量强相关的特征变量,通常是重要的特征变量。

其实,EDA 就好比数据科学中的福尔摩斯,作为侦探,你需要从你分析你掌握的各种信息,并且将这些信息联系在一起,破解最终的案件。统一的,EDA可以从理解数据,一步步从中查找出线索。

思考题:

后台回复“不同”,可以获取答案。

Reference

本系列思维导图如下,如需高清版本和源文件,可以在后台回复“思维导图”