科技改變生活 · 科技引領未來
【天極網IT新聞頻道】在剛剛過去的Smartbi V9新品發布會上,多位嘉賓為我們帶來的精彩演講在現場引起了熱烈反響,小麥從本周開始選取一些整理成文,與未能到場的麥粉們一起分享。現在分享的是Smartbi資深顧問杜健航所作《V9產品挖掘篇 -- 機器學習,預測未來》的演講。
如剛才我們的CEO所說,目前智能BI的潮流是不可逆轉的,我們公司一直是站在潮頭。去年我在廣州塔那邊跟大家分享了智能助手小麥,那是代表了我們在智能BI自然語言分析這一方向的努力和成果。今天,我想介紹的是我們的另外一個方向:數據挖掘。這個詞有點偏技術,因此,我在開篇準備了兩個故事,這也是我們最近做的兩個項目,將有助于大家對“數據挖掘”的了解。
【故事】
一、銀行客戶流失預警
銀行面臨同質化競爭的市場環境,存款的利息都差不多,客戶忠誠度也不會很高,現在去拉一個新客戶的成本是遠遠高于維護老客戶的成本。因此,很多銀行都對防止客戶流失很重視。這家銀行當時找到我們說,他們有一些歷史數據,希望我們能從中預測出客戶流失的概率。這些歷史數據有客戶的固有屬性,如年齡、性別等,有行為屬性,如銀行卡收支情況、銀行APP使用情況,還有其它相關的屬性。接到這個需求以后,我們把工程師塞進了甲方的小黑屋,一周后他們提交了一個分析模型,這個模型用甲方提供的1000份歷史數據測試,準確率達到 86%。然后基于這個模型,為銀行的客戶建立了標簽,分為:流失客戶、動搖客戶、忠誠客戶3類。根據這3類標簽,銀行可以采取不同的措施。最后銀行針對“動搖客戶”進行二次細分,然后進行針對性關懷和獎勵,成功挽留了 50%以上的客戶,大大節省了投入成本。
二、違章建筑識別
第二個故事與城市管理有關。大家知道在城市管理中,有一個重要的工作內容是違章建筑處理。違建處理首先要去調查與識別哪個是違建,這是一件工作量大,周期長,且有危險性的工作。當前違章的識別是被動式的,靠舉報然后人工去查證,我們客戶想尋求用技術手段來提高效率。于是我們又把工程師塞進了小黑屋,這次他們一個月后才走出來,因為這次的難度比上一個需求高了不少。這個模型對圖片的建筑識別率達到了 90%以上,同時該模型還能對建筑范圍進行標定。這里是一個中間結果圖片,那些被虛線框起來的就是模型所識別的一個個建筑物,深紅色部分就是一個可能違章的建筑,疑似違法擴建。可以看到我們實現了客戶的需求,客戶因此大大節省了人力,提升了處理速度。原來三四十人的巡查隊,變為了五六人的無人機操作與數據處理人員。從這個故事可以表明我們具有應用高級算法定制客戶專屬的圖像識別能力,也可以應用到其它場景如公眾場所人流預警,商場貨架補貨提醒。
三、全新挖掘模塊
我剛才提到工程師為客戶需求建立的各種分析模型,就是基于我們的Smartbi V9全新的數據挖掘模塊Smartbi Mining。這也是今天我要介紹的主要內容。在過去的十多年里,Smartbi的產品團隊在傳統BI、自助BI領域,將強大功能與簡捷易用結合在一起帶給我們的客戶。今天,我們希望在智能BI、數據挖掘領域能給大家帶來同樣的感受。
四、Smartbi Mining的優點
Smartbi Mining操作起來非常簡單,建模、訓練、部署等都是在一個界面完成。業務人員可以參與,整個過程很直觀。里面有很多內置的模型算法,模型參數也是默認調整到最優狀態,大大降低了使用門檻。而且,系統隨時可以擴展,處理海量數據也不會出現問題。
【功能簡介】
一、數據源與數據處理
Smartbi Mining可以輕松接入各種大數據場景下的數據源,如Hadoop、Spark,也包括阿里云、華為的數據源,傳統的Smartbi數據源也可以無縫集成。也就是說,無論是結構化數據,還是非結構化數據,我們都可以拿來進行挖掘。在數據處理方面,無論是常規的要求,還是高級的要求,如One-Hot編碼、特征離散等都能滿足。
二、可視化挖掘
如果大家有一些挖掘項目經驗的話,就會知道經歷是比較痛苦的。基本上是純技術人員的工作,就是敲代碼,業務人員是很難參與的,只能最后拿一個結果。這種做法要么實施周期很長,要么就是得出來的結果難以理解,要么就是完全訂制調整不了,這些問題現在都能解決。Smartbi Mining是完全通過拖拉拽建模,整個過程、結果都可以看得到,業務人員是可以參與的。
三、內置大量經典算法
Smartbi Mining包含五大類算法,分別是分類算法、回歸算法、聚類算法、文本分析和深度學習。更重要的是,這些組件算法是可擴充的,客戶可以根據應用場景去訂制其它的算法。
四、算法與模型
市面上很多挖掘產品并不能支持企業級、大團隊開發,要支持企業級挖掘應該有什么能力?我認為需要具備3點。第一,我們能將模型進行單獨的保存與使用,這樣就能使模型訓練調優與模型使用分離,便于大型項目開展;第二,在企業級開發會嘗試多種模型,甚至是聯合使用模型,能使多個模型一起工作;第三,你所做的所有工作都是能一鍵導入、導出,環境遷移十分簡便。Smartbi Mining具備這些特性,所以才能說是支持企業級挖掘。
五、服務發布
在挖掘項目中,將模型部署生產是最后一公里,這是一個繁瑣的過程,但在Smartbi Mining中已經成為過去。用戶可以一鍵完成部署,將訓練好的模型部署成為Web服務,然后直接通過調用該API向其發送數據,獲取預測結果。Smarbi Mining還能對所有部署的服務進行統一管理,直接通過界面控制服務的啟停。也支持修改服務的配置信息,例如服務別名、服務描述,對于管理員十分的簡便。
六、小結
從我上面對挖掘功能的介紹中,大家了解到Smartbi這次發布的是一個一體化的數據挖掘模塊,提供從數據處理、建模到發布投產、運維管理的全流程支持,一個界面完成。同時它是一個全能型模塊,能滿足各方面人群的使用需求,無論你是數據挖掘專家,還是有一定經驗的技術人員,或者是沒有任何經驗的業務用戶,相信都可以輕松使用,并從中受益。
【挖掘實踐】
產品這么強大又易用,我估計臺下已經有客戶在考慮實踐挖掘的項目了,下面我簡單介紹一下一個挖掘項目是如何落地的。
一、挖掘實施流程
通常來說是挖掘項目都能劃分為 4個步驟。首先是確定商業目標,這個目標同時要具備業務定義與技術定義,例如我們前面提到的預測客戶的流失概率,就是一個明確的目標。第二步是進行數據的準備與模型建立。這兩者其實是統一的,使用什么算法建立模型其實與具備什么數據密切相關。這里面會進行不斷的實驗與調整。接下來,模型相對穩定后,就需要用不同的評估方法進行模型的評估與參數調優。在達到一定的準確率后,模型就能進行部署,如前面所述這個在我們產品里面就很簡便了。而部署并不是終結,挖掘項目通常都需要迭代。如調整目標、補充數據、優化模型性能等,這也是我們很多項目都是多期的。
二、挖掘應用領域
通過前面內容,大家應該對我們挖掘功能及其具體應用有一定的了解。除了前面提到的流失預警、圖像識別外,Smartbi Mining還能應用到價格預測、異常行為偵測、網絡輿情分析等等諸多方面,應用范圍是十分廣泛的。
【我們的優勢】
一、挖掘與BI緊密相連
對比其它友商,Smartbi Mining與BI是緊密相連的。使用BI的數據源、數據集,已有項目資源能充分利用。結果利用BI 的成熟展現技術,在數據觀察、結果輸出時,展現的效果更加多樣。反過來,BI的功能也被增強了,挖掘的高級數據處理功能可以被BI 使用。原來BI都是處理結構化的數據,現在文本、圖片、后續的音視頻非結構化數據都能處理,極大增強BI的應用范圍。并且在BI的數據分析界面直接提供預測入口,大大降低了挖掘的使用門檻。
二、團隊實力
要保證挖掘項目成功,除了有成熟、易用的產品,更重要是要有專業的咨詢與實踐團隊,Smartbi就有這樣的團隊。我們最近參加了兩個比賽,一個是全球數據資源開發者大賽,這是一個中國互聯網協會舉辦的比賽,我們參與了中國移動專題,取得了第2名的好成績。另一個是中國載人航天工程辦公室主辦的天宮數據利用青年創新大賽,這個比賽就更為激烈了,全國的大型公司,各個高校都有參與,我們也闖進前10,最終排名第6。
三、應用成熟
Smartbi Mining雖然今天才發布,但其實已經開發與應用有一段時間了。我們不少的客戶已經成功實踐,為他們帶來實實在在的價值。其中就有稍后會分享的招商信諾,他們已經使用了一段時間了,據反饋效果還不錯,我覺得大家可以放心使用。
在這個大數據的時代,每個企業都希望從數據里面獲得價值,我們推出Smartbi Mining就是希望幫助大家更好、更快地做這個事情。如果說從BI 里面我們獲得的是金沙,那么從Mining里面,我們獲得的將是金塊。
高悅林