利用R语言进行探索性数据分析(EDA)

在数据进行建模或者严格的统计分析之前,我们一般需要先熟悉一下数据,弄清楚各变量的分布以及变量之间的关系,为进一步构建严格的模型,深入的分析打下基础。探索性数据分析(EDA)就是为了获得对数据的初步了解。
这篇文章,来源于自己课程学习实践的一个项目,主要是利用R语言进行探索性数据分析。用到的数据,是普遍使用的白葡萄酒的数据。主要内容涉及对单个变量,两个变量之间关系,多个变量之间的关系的一个探索。
单个变量的探索,主要利用的是柱形图,查看各变量的整体分布。两个变量的探索,主要分析变量之间是否存在相关关系,对于两个连续型变量可以使用散点图,一个连续型变量和离散型变量可以使用箱线图查看整体趋势;另外,定量分析可以使用相关系数矩阵和线性模型。三个变量的探索,可以使用气泡图,或者用颜色区分第三各变量。一般来说,探索性数据分析都是为后面具体的深入分析打基础的,所以也会一定的方向性。但是这篇文章为自己的探索性数据分析的课程项目,所以篇幅较长。主要的分析方向是探索影响白葡萄酒质量的因素。

数据总体概览

在探索数据之前,我们先对数据有一个总体的概览。我们先导入数据

查看数据整体的大小

利用R语言进行探索性数据分析(EDA)
数据设计及到的变量有,白葡萄酒的固定酸度、挥发性酸度、柠檬酸度、残糖量、白葡萄酒质量等。在对数据有了总体的概观以后,我们可以开始探索了。先导入相应的包资源:

单变量探索

白葡萄酒数据主要涉及的是每一类白葡萄酒的质量,以及它具有的一些属性。我们主要关注的问题是什么因素会影响到白葡萄酒的质量。首先我们对白葡萄酒的质量有一个总体的概观:

从上面的总体分析中,可以看到白葡萄酒的质量最低为3,最高为9,为了更能充分的展示,这里用scale_x_continuous来限制x轴的范围,并设置x轴的断点。最后结果为:

利用R语言进行探索性数据分析(EDA)
固定酸度值的分布大致为正态分布,大部分值都集中在6-8之间。我们来看一下高、低质量的区别:

利用R语言进行探索性数据分析(EDA)

利用R语言进行探索性数据分析(EDA)

利用R语言进行探索性数据分析(EDA)
可以看到白葡萄酒的残糖量在0-20之间。为了跟好的观察,我们把x轴的跨度限制在0-20,如下图:

利用R语言进行探索性数据分析(EDA)
可以看到白葡萄酒的酒精度大部分集中在8.5-13之间。我的一个兴趣点就是研究酒精度对白葡萄酒质量的影响。为了更好地观察,我们把x轴的范围限制8.5-13之间。如下图:

利用R语言进行探索性数据分析(EDA)

利用R语言进行探索性数据分析(EDA)

利用R语言进行探索性数据分析(EDA)
总体的白葡萄酒的氯化物含量在0-0.1之间。而高质量的白葡萄酒的氯化物含量大部分在0.025-0.05之间。

7.游离二氧化硫含量

利用R语言进行探索性数据分析(EDA)
总体上,游离二氧化硫的含量在0-100之间。而高低质量的白葡萄酒在大致在这个范围之内,有一点是高质量的白葡萄酒都在100以内。

8.总二氧化硫含量

利用R语言进行探索性数据分析(EDA)
summary(pf1来源:学统计的程序员
                                                        

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年7月21日
下一篇 2020年7月21日

相关推荐