- 数据科学工具库速查表 | Pandas 速查表
- 图解数据分析:从入门到精通系列教程
gm_df['neighbourhood_group_cleansed'].value_counts()
文章插图
bar_data = https://www.huyubaike.com/biancheng/gm_df['neighbourhood_group_cleansed'].value_counts().sort_values()# 从bar_data构建新的dataframebar_data = https://www.huyubaike.com/biancheng/pd.DataFrame(bar_data).reset_index()bar_data['size'] = bar_data['neighbourhood_group_cleansed']/gm_df['neighbourhood_group_cleansed'].count()# 排序bar_data.sort_values(by='size', ascending=False)bar_data = https://www.huyubaike.com/biancheng/bar_data.rename(columns={'index' : 'Towns', 'neighbourhood_group_cleansed' : 'number_of_listings','size':'fraction_of_total'})#绘图展示#plt.figure(figsize=(10,10));bar_data.plot(kind='barh', x ='Towns', y='fraction_of_total', figsize=(8,6))plt.title('Towns with the Most listings');plt.xlabel('Fraction of Total Listings');
文章插图
曼彻斯特镇拥有大曼彻斯特地区的大部分房源,占总房源的 53% (1849),其次是索尔福德,占总房源的 17% ;特拉福德,占总房源的 9% 。
大曼彻斯特地区的 Airbnb 房源价格分布
gm_df['price'].mean(), gm_df['price'].min(), gm_df['price'].max(),gm_df['price'].median()# (143.47600446428572, 8, 7372, 79.0)
Airbnb 房源的均价为 143 美元,中位价为 79 美元,数据集中观察到的最高价格为 7372 美元 。# 划分价格档位区间labels = ['$0 - $100', '$100 - $200', '$200 - $300', '$300 - $400', '$400 - $500', '$500 - $1000', '$1000 - $8000']price_cuts = pd.cut(gm_df['price'], bins = [0, 100, 200, 300, 400, 500, 1000, 8000], right=True, labels= labels)# 从价格档构建dataframeprice_clusters = pd.DataFrame(price_cuts).rename(columns={'price': 'price_clusters'})# 拼接原始dataframegm_df = pd.concat([gm_df, price_clusters], axis=1)# 分布绘图def price_cluster_plot(df, column, title):plt.figure(figsize=(8,6));yx = sb.histplot(data = https://www.huyubaike.com/biancheng/df[column]);total = float(df[column].count())for p in yx.patches:width = p.get_width()height = p.get_height()yx.text(p.get_x() + p.get_width()/2.,height+5,'{:1.1f}%'.format((height/total)*100), ha='center')yx.set_title(title);plt.xticks(rotation=90)return yxprice_cluster_plot(gm_df, column='price_clusters',title="Price distribution of Airbnb Listings in the Greater Manchester Area");
文章插图
从上面的分析和可视化结果可以看出,65.4% 的总房源价格在 0-100 美元之间,而价格在 100-200 美元的房源占总房源的 23.4% 。不过我们也观察到数据分布有很明显的长尾特性,也可以把特别高价的部分视作异常值,它们可能会对我们的分析有一些影响 。
最受欢迎的房型是什么
# 基于评论量统计排序ax = gm_df.groupby('property_type').agg(median_rating=('review_scores_rating', 'median'),number_of_reviews=('number_of_reviews', 'max')).sort_values(by='number_of_reviews', ascending=False).reset_index()ax.head()
文章插图
在评论最多的前 10 种房产类型中, Entire rental unit 评论数量最多,其次是Private room in rental unit 。
# 可视化bx = ax.loc[:10]bx =sb.boxplot(data =https://www.huyubaike.com/biancheng/bx, x='median_rating', y='property_type')bx.set_xlim(4.5, 5)plt.title('Most Enjoyed Property types');plt.xlabel('Median Rating');plt.ylabel('Property Type')
文章插图
房东与房源分布
经验总结扩展阅读
- 常熟旅游景点有哪些 常熟必去十大景点
- 2023年农历八月十二旅游吉日 2023年9月26日旅游好不好
- 一篇文章带你了解NoSql数据库——Redis简单入门
- 旅游发圈的精致句子出游短句唯美
- 两个人去张家界旅游三天大概需要多少钱
- 2023年9月27日旅游黄道吉日 2023年9月27日是旅游的黄道吉日吗
- 2023年2月2日是旅游的黄道吉日吗 2023年2月2日适合旅游吗
- 带你去看海底星空是什么意思
- 带你去看海底星空是什么梗
- 一篇文章带你了解服务器操作系统——Linux简单入门