python-绘图与可视化( 五 )


python-绘图与可视化

文章插图
累积曲线:使用Matplotlib对身高这一定量变量绘制累积曲线的代码如下:
#绘制累积曲线def drawCumulativaHist(heights):    #创建累积曲线    #第一个参数为待绘制的定量数据    #第二个参数为划分的区间个数    #normal参数为是否无量纲化    #histtype参数为‘step’,绘制阶梯状的曲线    #cumulative参数为是否累积    pyplot.hist(heights,20,normed=True,histtype='step',cumulative=True)    pyplot.xlabel('Heights')    pyplot.ylabel('Frequency')    pyplot.title('Heights of Students')    pyplot.show()drawCumulativaHist(heights)
python-绘图与可视化

文章插图
(3)关系分析
散点图 。在散点图中,分别以自变量和因变量作为横坐标 。当自变量与因变量线性相关时,散点图中的点近似分布在一条直线上 。我们以身高作为自变量,体重作为因变量,讨论身高对体重的影响 。使用Matplotlib绘制散点图的代码如下:
#绘制散点图def drawScatter(heights,weights):    #创建散点图    #第一个参数为点的横坐标    #第二个参数为点的纵坐标    pyplot.scatter(heights,weights)    pyplot.xlabel('Heights')    pyplot.ylabel('Weight')    pyplot.title('Heights & Weight of Students')    pyplot.show()drawScatter(heights,weights)
python-绘图与可视化

文章插图
(4)探索分析
箱型图 。在不明确数据分析的目标时,我们对数据进行一些探索性的分析,可以知道数据的中心位置、发散程度及偏差程度 。使用Matplotlib绘制关于身高的箱型图代码如下:
#绘制箱型图def drawBox(heights):    #创建箱型图    #第一个参数为待绘制的定量数据    #第二个参数为数据的文字说明    pyplot.boxplot([heights],labels=['Heights'])    pyplot.title('Heights of Students')    pyplot.show()drawBox(heights)
python-绘图与可视化

文章插图
注:
① 上四分位数与下四分位数的差叫四分位差,它是衡量数据发散程度的指标之一
② 上界线和下界线是距离中位数1.5倍四分位差的线,高于上界线或者低于下界线的数据为异常值
描述性统计是容易操作、直观简洁的数据分析手段 。但是由于简单,对于多元变量的关系难以描述 。现实生活中,自变量通常是多元的:决定体重的不仅有身高,还有饮食习惯、肥胖基因等因素 。通过一些高级的数据处理手段,我们可以对多元变量进行处理,例如,特征工程中,可以使用互信息方法来选择多个对因变量有较强相关性的自变量作为特征,还可以使用主成分分析法来消除一些冗余的自变量来降低运算复杂度 。
参考书目:《数据馆员的python简明手册》
【python-绘图与可视化】

经验总结扩展阅读