科技改變生活 · 科技引領未來
轉載/大數據架構師彭友們好,我是老彭呀。前兩天網上到處都在傳中國的失業率達到了驚人的18%!!!我都蒙了呀!這數據這么驚人了嗎?嚇得我連夜到處查數據來源,一說是“國家”發布的,這一看就是和稀泥的,數據發布肯定有一個部門,不會是“國家”發的。
轉載/大數據架構師
彭友們好,我是老彭呀。前兩天網上到處都在傳中國的失業率達到了驚人的18%!!!我都蒙了呀!這數據這么驚人了嗎?
嚇得我連夜到處查數據來源,一說是“國家”發布的,這一看就是和稀泥的,數據發布肯定有一個部門,不會是“國家”發的。這就是數據的責任部門存在的意義。
另一說,是國家統計局發布的,而且是4月的數據。這倒是有鼻子有眼的。我就仔細去看了一下。
1、數據來源
一般來說,這類數據都是國家統計局發布的。我們百度一下國家統計局,第一個鏈接就是:
打開之后長這樣:
看見上面的“數據查詢”沒有?點進去。嗯,會出現一個警告,咱忽略,直接繼續就行,這個就不用吐槽了哈~~~
進去之后是這樣:
是的,點擊“月度數據”默認打開的是CPI(居民價格指數)指標的結果。果然,2022年4月的數據已經更新了。
這里是一個非常好的數據集產品示例。非常規范,極具參考價值。以CPI為例:
2、失業率
我們今天的話題是失業率,直接到上面的搜索欄輸入“失業率”查詢一下:
失業率有兩種統計方法:一類是登記失業率,一類是調查失業率。
國外大多用的是調查失業率,意思就是上街隨機找人問:“你失業沒有”。這種方法主動性較強,跟實際情況比較接近。
我國之前一直用的是登記統計的方法,這種方法較為被動,只有去社保登記失業的人才會被統計上,因此比調查失業率普遍低一些。
這兩年我們也開始用調查的方式統計失業率了,從結果上來看,的確比登記失業率要高一些,4月份的全國城鎮調查失業率6.1%,但是也沒高到18%這么離譜啊!
老彭挨個點開看了,數據在這里呢:
嗯,指標名字是“全國16-24歲人口城鎮調查失業率(%),高達18.2%。傳聞對上了,但又沒全對。
從上表我們能看出來,00后小彭友是超勇的[笑哭][笑哭][笑哭]
網上傳聞00后整頓職場的段子真不是空穴來風呀~~
身為80后的我,為什么感覺被冒犯了[淚奔]
寶寶心里苦,能向誰訴說?[淚奔][淚奔][淚奔]
00后一直這么勇嗎?還是今年變勇了?老彭我把數據拉長到36個月。咱忽略左側標簽的不統一,自動的產品就是有些小問題。
綠線一直都很高,疫情前全國的調查失業率(橙色)才5%,全國16-24歲人口城鎮調查失業率(綠色)就已經沖到10.5%!
在2021年底,00后失業率沖到了15%,今年3月沖到了16%,4月飆升至18.2%。勇,真的勇!
有那么一瞬間,老彭也有些激動了呀[笑哭][笑哭][笑哭]
3、正確理解數據
我知道會有彭友會站出來質疑數據的準確性,甚至抬出來各種數據造假的案例。
也會有人故意拋棄全局,拿出部分數據過度解讀。之前老彭聽到“全國失業率已經達到18%”就是典型。
還有人質疑調查數據、推算過程是否科學嚴謹。
但是,老彭想說,這些都不重要。
沒必要洗地,老彭現在也推不出公式來,更沒辦法親自問問全國14億彭友們就業情況。但是我們至少可以做一件事情:
認真、科學、理性、精確地對待數據,不要過度解讀,不要斷章取義,不要隨意聯想,會出大事的[笑哭][笑哭][笑哭]
這讓我想起來了《首席數據官管理手冊》里專門有一張講數據倫理,《DAMA 數據管理知識體系指南 DMBOK 2.0》里第2章就叫“數據處理倫理”。里面都談到了對數據的正確態度。
但是這到處都是對數據的錯誤引用、肆意濫用,甚至是故意曲解。唉,道阻且長啊……
金同東