outline 数据可分为结构性数据非结构性数据。例如,表格数据、JSON数据是结果型数据;而图片、声音是非结构性数据。通常,在数据分析中,我们主要关注结构性数据

data

Photo by Balázs Kétyi on Unsplash

结构型数据

结构性数据分为两种,一种是数值型 (quantitative data) 数据,另一种是分类型 (categorical data) 数据

table

分类型数据

分类型分为:定距型数据(interval data)定比型数据(ratio data)

定距型数据

定类型数据中,数据的值是名字。例如,国家的名称、商品的类别。

需要注意的是,名字也可能是数字,所以不要看到数字,就以为数值型。例如,运动会上选手的编号、城市的邮政编号。

定比型数据

定序型数据,数据之间有顺序关系。 可以比大小,但是不能进行运算。

例如,比赛名次有第一名、第二名和第三名,不能说第三名不等于第一名加第二名;高铁的座位有一等座、二等座;酒店等级有五星级、四星级、三星级等等。

jakub-kapusnak-296131-unsplash

数值型数据

数值型数据分为:定距型数据(interval data)定比型数据(ratio data)

定距型数据

定距型数据,数据之间的距离有意义,可以进行加减操作却无法进行乘除操作,不存在绝对零值(absolute zero), 0不代表没有。

最典型的例子是温度,20摄氏度和10摄氏度之间相差10摄氏度,但是 0 摄氏度不代表没有温度,0摄氏度时定义的水结成冰的温度。

Thermometer01

定比型数据

定比型数据,相比定距型数据,其数据之间存在比例关系它有绝对零值 , 0 代表没有

例如,年龄、重量。对于重量,20kg是10kg的两倍,而且重量为0kg时,的确代表的是没有重量。

定距型数据与定比型数据区分方法:是否存在绝对零值,也就是0是不是代表没有。

总结一下,数据细分的四种类型,从下到上逐渐复杂:

type

区分了不同的数据类型之后,就可以进一步,根据不同的数据类型采用不同的分析方法。从变量的个数来分有:单变量分析和多变量分析。

单变量分析

首先,我们来看单变量分析。

单变量分类型数据

对于单变量的分类型数据,我们主要分析其频率(Frequency)和百分比,所以使用频率分布表(Frequency tables)或柱状图和饼状图来进行展示。

freq

单变量数值型数据

数据概况

数值型数据,会描述其中心(Center)、分布(Spread)和形状(shape)。

图形化展示通常使用:直方图(Histograms)、箱线图(Boxplots)、密度图(Density Plot)和条形图(Barplot)。

五数概况法

数值型数据另一种典型描述方法是:五数概况法(five number summary or five statistical summary)。五数概况法, 即最小值、三个四分位数和最大值。

构建方法:将数据按升序排列,然后确定最小值、最大值和三个四分位数。

5numberSummary

例如:

对于数据:[3, 7, 8, 5, 12, 14, 21, 13, 18]

排序之后:[3, 5, 7, 8, 12, 13, 14, 18, 21]

最小值:3

最大值:21

中位数 = 12

Q1 : [3, 5, 7, 8, 12 ] 的中位数为 7

Q3 : [12, 14, 21, 13, 18] 的中位数为 14

在R中,调用方法为:

summary(data)

例如:

r <- c(3, 5, 7, 8, 12, 13, 14, 18, 21)
summary(r)
Output
Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
3.00    7.00   12.00   11.22   14.00   21.00

(python中使用:categorical_summarized和quantitative_summarized)

箱线图

这里以箱线图为例进行讲解。箱线图可以展示五数概况,看出数据的集中程度和误差程度。箱线图于1977年由美国著名统计学家约翰·图基(John Tukey)发明 (对,就是是那个EDA的奠基人)。

五个数与箱线图各个部分对应的基础箱线图,如下:

Box

基础箱线图,加上对异常值的判断,可以得到修改之后的箱线图:

mdBox

其中:

同样的,对于数据:[3, 7, 8, 5, 12, 14, 21, 13, 18]

在 R 中使用 boxplot() 绘制箱线图:

r <- c(3, 5, 7, 8, 12, 13, 14, 18, 21)
boxplot(r)

绘制结果:

b1

假设我们手动添加一些异常数据:-18,0,3, 5, 7, 8, 12, 13, 14, 18, 21,37

r <- c(-18,0,3, 5, 7, 8, 12, 13, 14, 18, 21,37)
summary(r)

绘制结果:

b2

可以在这里参考每种图的具体含义。

总结

本文主要讲述数据类型和单变量分析,都是基本的描述性统计学中的内容,重点是理清楚概念。

思考

  1. 箱线图中的最大值一定是数据的最大值吗?

  2. 温度中,0 摄氏度的2倍是多少摄氏度?

    在公众号对话框中回复”温度“即可获取答案。