2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

转载自:大数据架构师
明确目的
带着问题出发 , 明确我们的目的是探索不同岗位、城市、公司数据人薪资是怎样的 , 所以是一个探索性分析 。
数据处理
1、查看并理解字段
拿到数据 , 大概看一下 , 总共有184条记录 , 量不大 , 那我们就直接用Excel来处理即可 。 样本量虽然有点少 , 但贵在真实、有效 。
有8个字段:
序号:对一条记录的唯一编号提交时间:用户提交问卷的时间 , 没有特别的含义大佬是什么岗:岗位名称 , 如数据仓库、大数据开发等7个类别大佬在什么厂:公司类型 , 如一线巨厂、三线小厂等4个类别大佬的月薪多少:月薪 , 有1w以下 , 1~2w等6个区间可选你还有啥想问、想说的:留言递交地点:城市 , 可以理解为工作所在城市2、缺失值处理
缺失值只在留言一列中存在 , 但这是正常现象 , 没必要做任何操作
3、重复值处理
对于重复值 , 这里我们认为所有字段都重复的才为重复值 , 即可删除 。 通过【删除重复值】的功能来实现 , 这份数据里没有重复值 。
2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大
文章图片
4、异常值处理
关于异常值的处理 , 一个是对数值型数据的统计学意义上的异常来看 , 常用的方法是直接画出箱型图来观察 。
另一个则是根据业务经验来判断 , 这里我们可以对城市字段进行分组 , 方便后续的分析 , 同时在分组过程中 , 也发现了一些异常值 , 这是基于常识经验 。
把城市分为一线、新一线、二线、三线、四线、五线 , 有50个值是没有归属的 , 情况也不一样 。
有的是地点直接显示为国别 , 如中国、美国 , 有的是地点显示为省份 , 如广东、浙江 。 把省份用其省会城市代替 , 做一些处理 。
2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大
文章图片
最后得到规整的城市对应分组城市类型的数据 。
2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大
文章图片
由于数据源是从调查软件中导出 , 所以整个数据比较规范 , 在缺失值、重复值、异常值的处理上都比较方便 , 基本无需做多余的操作 , 直接拿来用都可以 。
数据分析
初级段位:数据罗列
1、单一特征分布
查看这份调查问卷每个字段的情况
2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大
文章图片
根据对单一特征的分析可以知道:
在这份样本中 , 有7个类别的岗位 , 其中数据仓库岗位的用户最多 , 占比24.46% , 算法类岗位填写问卷的最少 , 只有3个 , 其余的如大数据开发、数据分析、产品类等岗位分布大致相同 。 有近一半的人(42.93%)是在默默无闻的血汗工厂工作 。 本次调查的人中有约95%的人月入过万 , 有超过2/3的人是月收入在1~2、2~3W的区间内 。 在北上广深等一线城市工作的人超过一半(51.63%) , 其次是新一线城市 。 底层码农占比44.57%2、离散型数据分布
查看了单个字段的大致分布后 , 别忘了我们的目的:薪资!所以要看每个字段和薪资的情况
2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大
文章图片
可以看出:
从岗位&薪资上来看 , 数据分析类岗位1~2w的薪资占比达到了70% , 大数据开发岗位2~3w薪资占比60% , 其余数据仓库、产品岗等2~3w较多 。 所以 , 想要工资高 , 选择赛道很重要!从级别&薪资上来看 , 底层码农1~2w薪资水平占比较多(49%) , 主管/中级工程师同样也是1~2w占比较多 , 54%的人到了经理/高级工程师的级别后其薪资水平可达到2~3w , 总监/架构师及以上的薪资在5~8w和8w以上的人数占比达到了61.5 。 所以 , 要想多加薪 , 升职要上心 。 从公司性质&薪资上看 , 一线巨厂和非一线但是听过名字的大厂薪资2~3w的人较多 , 默默无闻的血汗工厂和三线小厂的薪资在1~2w的人较多 。 从城市&薪资上看 , 可以看到 , 一线和新一线城市的薪资结构差不多 , 1~2、2~3w占据了大多数 , 2345线城市2~3w薪资的就不多了 。 所以 , 哪儿的工资多?大城市里找工作 。中级段位:多特征联合

经验总结扩展阅读