這是一篇來自小密圈同學的投稿,發現小密圈的高手真多,臥虎藏龍呀.租房是一個剛需,相信很多人特別是剛畢業不久的小伙伴都會碰到這個問題,那么在一線大城市比如深圳的租房情況如何呢,閃亮同學對深圳自如網站上的房源情況進行探索分析,非常有意思.探索的
這是一篇來自小密圈同學的投稿,發現小密圈的高手真多,臥虎藏龍呀.租房是一個剛需,相信很多人特別是剛畢業不久的小伙伴都會碰到這個問題,那么在一線大城市比如深圳的租房情況如何呢,閃亮同學對深圳自如網站上的房源情況進行探索分析,非常有意思.
探索的問題
- 房租的分布情況
- 哪種戶型的房源最多
- 哪條地鐵線附近的房租比較貴
- 哪個區的房租更貴
- 房源的面積分布情況
數據說明
- 數據來源深圳自如網站(僅包含可出租狀態的合租房源)
- 采用集搜客工具爬取
- house_area: 表示房間的面積
- house_toom: 表示出租房屋的戶型
- house_price: 表示每月的房租
- house_name: 表示房源所處的小區
- house_located: 表示房源所處的小區
- subway_info: 表示房源附近是否有地鐵站
1.數據預覽
1).看一下整個數據集的情況

2).刪掉一些無用的列
df_sz_ziroom = df_sz_ziroom.drop('Unnamed: 0', axis=1) # 刪掉無用的列df_sz_ziroom.head(5) # 預覽前五條數據
2.數據清洗
除了 house_room 字段外,剩下的字段都需要清洗,為了便于分析還需要新增字段,工作量有點大,挺好,又可以練手。
1).house_area 字段
有 "15.2" 和 "約9.5" 兩種格式,需要轉換成純數字格式
0 15.5 1 24.0 2 15.0 3 6.3 4 7.8 Name: house_area, dtype: float64
2). house_price 字段
目前格式為 “¥1490 (每月)”,要把其修改為純數字格式
0 1660 1 2230 2 1830 3 1860 4 1930 Name: house_price, dtype: int64
3).house_name 字段
目前的格式類似為 “樺潤馨居4居室-南臥”,需要把小區名字提取出來,如 “樺潤馨居”
0 龍園山莊 1 塘朗城廣場東區 2 龍園山莊 3 塘朗城廣場東區 4 桃源村一期 Name: house_name, dtype: object
4). house_located 字段
目前格式為 “[龍華區龍華中心] 4號線(龍華線)龍華” 包含所在的區和地鐵兩項信息,現需要把這兩項信息提取并設置為兩個字段
4.1).提取地鐵信息
0 3號線 1 5號線 2 3號線 3 5號線 4 7號線 Name: subway_info, dtype: object
4.2).提取所在的區的信息
0 羅湖區 1 南山區 2 羅湖區 3 南山區 4 南山區 Name: house_located, dtype: object
經過上面的步驟,看一下清洗完的數據集
3.數據可視乎分析:單維度
1). 房租分布情況
- 最低的房租為 1130 元每月,最貴的房租為 4360 元每月,土豪專屬。
- 平均房租為 2068 元每月,75% 的房租超過 1760 元每月。
df_sz_ziroom['house_price'].describe()
count 899.000000 mean 2068.787542 std 465.815828 min 1130.000000 25% 1760.000000 50% 1930.000000 75% 2290.000000 max 4360.000000 Name: house_price, dtype: float64
最高房租和最低房租的是什么房子
df_sz_ziroom[df_sz_ziroom['house_price'] == 1130]
df_sz_ziroom[df_sz_ziroom['house_price'] == 4360]
- 房租最低的房子位于龍崗區,龍崗區比較偏僻,且該套房源為6室1廳,房租最低也正常。
- 房租最貴的房子位于南山區在二號線旁邊,2號線經過的基本都是深圳最繁華的地帶,房租這么高也正常。
大部分的房價集中在 1625 到 2250 元每月,其中 1750 到 2000 元每月的房源最多。超過 3500 元每月的房源很少。因為本次分析的都是合租房源,看來深圳自如的房租還是比較貴。
2).面積分布情況
df_sz_ziroom['house_area'].describe()
|
count 899.000000 mean 11.462803 std 3.322627 min 5.360000 25% 9.200000 50% 11.100000 75% 13.300000 max 30.900000 Name: house_area, dtype: float64
絕大多數房間的面積集中在 6.3 到 12.7 平米之間,其中 10 到 12.7之間的房源最多。超過 20平米的房源很少,租房形式真嚴峻。
3).區域房源分布情況
羅湖區的房源最多,其次是南山區,最少的是福田區。在福田上班的話不妨去羅湖租房,房源比較多.
4).地鐵房源分布
3號線附近的房源最多,由于3號線終點和起點分別在羅湖和龍崗,在羅湖上班的話,沿著3號線租房最好,不僅房源多,而且龍崗的房租普遍比較便宜,上班地鐵直達。5號線附近房源數量排在第二位,由于5號線橫跨羅湖區、南山區、寶安區,中途換成站非常多,不論在羅湖還是南山還是寶安區,沿著5號線附近租房也是不錯的選擇。
4.數據可視化分析:雙維度分析
1).考慮面積和房租
- 圖1為房子的面積和總價的關系圖
- 圖2為對面積和總計分別取平方根和對數的關系圖從圖2中發現面積和房租并沒有呈現出明顯的線性關系,并不是房間面積越大,房租越貴。
2).區域和房租
南山區的房租貴,75%的房租高于2000元每月,其箱體也最長。南山區積聚了大量互聯網企業,薪資水平在深圳相對來說也非常高。福田區的房租緊隨南山區之后,龍崗區和羅湖區的房租最低。如果在南山區工作,去寶安租房是個不錯的選擇,地鐵方便,房租也比南山便宜。在福田區工作,去羅湖和龍華租房是個不錯的選擇,地鐵方便,房租也比福田便宜很多。
5.數據可視乎分析:多維度分析
1).我們考慮面積,房租,區域,地鐵沿線三者的關系
- 2號線沿線的房子最貴,主要分布在南山區和福田區,絕大多數房租均超過2000元每月
- 5號線和3號線沿線的房子主要分布在羅湖區和龍崗區,且絕大多數房價低于2000元每月。5號線沿線少量的大面積房源分布子在龍華區
- 7號線和9號線沿線的房子主要分布在南山區和羅湖區,房源數量比較少,且價格大多數超過2000元每月
- 4號線沿線的房子絕大部分分布在龍華區,絕大部分價格比較高分布在福田區
- 1號線和11號線沿線的房子主要分布南山區和寶安區,分布在寶安區的房租相對來說比較低
結論:
- 深圳自如絕大多數房租超過1700元,且面積都不大,不過結合深圳的實際租房情況和自如的服務,這個價位還是可以考慮。
- 南山區的房租最貴,房源數量也是第二多的,南山區也聚集了大量互聯網企業,對于經常加班的互聯網從業者來說在公司附近租房是個不錯的選擇。
- 龍崗區和羅湖區的房租最低,且羅湖區房源數量最多,在羅湖上班想租的近一點可以選擇羅湖,考慮便宜一點的可以去龍崗區租房。