怎么利用pandas做数据分析

【怎么利用pandas做数据分析】
pandas是python中非常强大的数据分析库,下面我来说说我的看法,供大家参考参考:
1. pandas的两大函数(Series 和 DataFrame函数,series 做序列处理 , dataframe 做表格方面处理)
2. 数据表信息查看(如:data.shape 查看维度;data.info 查看基本信息;data.dtype查看列的类型)
3.pandas 做数据清洗(如:data.isnull() 判断是否有空值;data.fillna(value=https://www.baichanghui.com/detail/0) 填充空值等)
在这里不一一详细讲解,想深入了解的朋友,请看我的“pandas知识大总结”的文章 , 文章链接在文末 。
4.pandas做数据预处理
5.pandas做数据提取工作
6.pandas做数据汇总
7.pandas做数据统计
8.pandas读取 csv 和 Excel 表格的信息
9.pandas写入信息进 csv 和 Excel 表格中 。
详细的 pandas 具体用法,请看小编的文章,文章链接是:***/i6621891379826000388/
Pandas处理以下三种数据结构 –

  • 序列
  • 数据帧
  • 面板
这些数据结构建立在Numpy数组的顶部,这意味着它们很快 。
尺寸和说明
考虑这些数据结构的最佳方式是高维数据结构是其较低维数据结构的容器 。例如 , DataFrame是Series的容器,Panel是DataFrame的容器 。
数据结构外形尺寸描述序列11D标记的同质阵列 , sizeimmutable 。数据帧2一般的二维标签,大小可变的表格结构,具有潜在的非均匀类型列 。面板3一般3D标签,大小可变的数组 。
构建和处理两个或更多维数组是一项单调乏味的任务,用户在编写函数时需要考虑数据集的方向 。但是使用Pandas数据结构,用户的心理努力会减少 。
例如,使用表格数据(DataFrame)时,思考 索引 (行)和 列 而不是轴0和轴1时语义上更有用 。
可变性
所有Pandas数据结构都是可变的(可以更改),除了Series都是可变大小的 。序列大小不可变 。
注 – DataFrame被广泛使用并且是最重要的数据结构之一 。面板用得少得多 。
序列
序列是一种具有同质数据结构的一维数组 。例如 , 以下序列是整数10,23,56 …的集合
10235617526173902672关键点
  • 同质数据
  • 大小不可变
  • 数据可变的值
数据帧
DataFrame是一个具有异构数据的二维数组 。例如,
名称年龄性别评分史蒂夫32男3.45利亚28女4.6VIN45男3.9凯蒂38女2.78
该表格表示一个组织的销售团队的总体绩效评级数据 。数据以行和列表示 。每列代表一个属性,每行代表一个人 。
数据类型的列
四列的数据类型如下 –
柱类型名称串年龄整数性别串评分浮动关键点
  • 异构数据
  • 大小可变
  • 数据可变
面板
面板是具有异构数据的三维数据结构 。图形表示很难代表面板 。但是面板可以作为DataFrame的容器来说明 。
关键点
  • 异构数据
  • 大小可变
  • 数据可变
教程:***/article/8273

经验总结扩展阅读