科技改變生活 · 科技引領(lǐng)未來
哪些用戶需要遷移原社區(qū)版用戶社區(qū)版不再更新Cloudera(Cloudera和Hortonworks合并后)所有產(chǎn)品不再提供社區(qū)版,用戶無法獲取新的功能。社區(qū)版不再免費(fèi)2021年1月31日開始,所有Cloudera軟件都需要有效的訂閱,且訂
哪些用戶需要遷移
原社區(qū)版用戶
Cloudera(Cloudera 和Hortonworks 合并后)所有產(chǎn)品不再提供社區(qū)版,用戶無法獲取新的功能。
2021年1月31日開始,所有Cloudera軟件都需要有效的訂閱,且訂閱費(fèi)昂貴(50個節(jié)點(diǎn),一年訂閱費(fèi)50萬美元)。
原企業(yè)版用戶
Cloudera 和Hortonworks 合并后推出了新一代大數(shù)據(jù)平臺 CDP,CDH 6和HDP 3將是CDH和HDP的最后企業(yè)版本,用戶無法繼續(xù)獲取新的功能和性能提升。
至2022年3月份,CDH/HDP全部EoS,用戶沒辦法獲取售后支持:
來源:cloudera官網(wǎng)
遷移方向
方向一:CDP
CDP是 Cloudera 和Hortonworks 合并后發(fā)布的新產(chǎn)品,融合原來CDH和HDP能力并增加了一些新功能和BugFix,支持云部署等能力。
雖然CDP提供了一些新能力,也將繼續(xù)更新并提供支持,但外國的軟件無法適配國產(chǎn)軟硬件生態(tài)(國產(chǎn)芯片、操作系統(tǒng)、服務(wù)器、中間件),技術(shù)方向不能自主可控,許可證也受外國法律限制,近期俄羅斯事件將這方面風(fēng)險徹底暴露:
3月3日,Oracle發(fā)推文稱:“為了Oracle在全球各地的150000名員工的利益,為了支持烏克蘭民選政府和烏克蘭人民,Oracle公司已經(jīng)暫停了在俄羅斯聯(lián)邦的所有業(yè)務(wù)。
a. 谷歌宣布 Google Pay 在俄羅斯無限期暫停使用;
b. 蘋果公司除了宣布在俄羅斯停用 Apple Pay 以外,也在俄羅斯境內(nèi)停止所有產(chǎn)品的銷售
c. 英特爾、戴爾、AMD 宣布向俄羅斯斷供芯片
d. ……
外媒消息稱,全球第一代代碼托管平臺GitHub 正在考慮限制俄羅斯開發(fā)人員使用開源軟件。盡管此類軟件的使用是免費(fèi)的,但它的許可協(xié)議仍然存在諸多限制,包括禁止受制裁的國家使用原本對公眾免費(fèi)開放的代碼。
方向二:國內(nèi)封裝的Hadoop商業(yè)版
對開源組件進(jìn)行封裝,安裝部署運(yùn)維方面有一些增強(qiáng)。
但是不可避免的,封裝開源組件始終是受制于國外法律與國際形勢,風(fēng)險與方向一遷移到CDP相當(dāng)。
同時,對開源組件進(jìn)行封裝的廠商無法獲取最新的源代碼。另外,很多人認(rèn)為有源代碼就可以自主可控,實際代碼只是一個技術(shù)的載體,僅僅擁有源代碼并不代表擁有核心技術(shù),數(shù)千萬行代碼里掃清有意無意的漏洞根本不現(xiàn)實,擁抱開源的同時也一定擁抱了風(fēng)險。
隨著美國公司Cloudera不再更新社區(qū)版,這一類產(chǎn)品將無法獲得能力更新,除非也升級到CDP,完全走向方向一。
方向三:國內(nèi)自主研發(fā)大數(shù)據(jù)產(chǎn)品TDH
Transwarp Data Hub(TDH)是星環(huán)科技自主研發(fā)的企業(yè)級一站式多模型大數(shù)據(jù)基礎(chǔ)平臺,采用領(lǐng)先的多模型技術(shù)架構(gòu),8種存儲引擎支持10種數(shù)據(jù)模型,成套的工具組件讓系統(tǒng)的安裝部署、擴(kuò)容升級、安全防衛(wèi)、風(fēng)險告警、權(quán)限管理等工作變得更便捷。在技術(shù)領(lǐng)先性、性能、易用性、安全性、國產(chǎn)化生態(tài)兼容性,以及售后服務(wù)等諸多方面具有優(yōu)勢。同時,國產(chǎn)自主研發(fā)的TDH對國產(chǎn)化生態(tài)具有高度兼容性,滿足信創(chuàng)驗收要求。
遷移到不同平臺后獲得的能力
遷移到國產(chǎn)自主研發(fā)大數(shù)據(jù)產(chǎn)品TDH
TDH的多模架構(gòu),支持關(guān)系表、文本、時空地理、圖數(shù)據(jù)、文檔、時序等在內(nèi)的10種數(shù)據(jù)模型;離線數(shù)據(jù)批處理、高并發(fā)的在線數(shù)據(jù)服務(wù)、數(shù)據(jù)集市、數(shù)據(jù)倉庫、數(shù)據(jù)湖、圖存儲分析、空間數(shù)據(jù)存儲、實時數(shù)據(jù)處理、數(shù)據(jù)中臺、數(shù)據(jù)治理等各類大數(shù)據(jù)業(yè)務(wù)場景一站解決。
TDH自研高性能分布式計算和存儲引擎,整體性能是CDP的 5~25倍。
TDH完整支持SQL2003標(biāo)準(zhǔn),支持PLSQL存儲過程,兼容Oracle、DB2、Teradata等方言,無需每個場景一套接口。
TDH提供開箱即用的可視化運(yùn)維監(jiān)控、安全管控工具,容器技術(shù)帶來極致的安裝、升級、補(bǔ)丁體驗。
TDH原廠超過1100人研發(fā)與支持團(tuán)隊和超過3萬名星環(huán)科技認(rèn)證的大數(shù)據(jù)工程師,專業(yè)性更強(qiáng),售后無憂。
TDH提供統(tǒng)一SQL引擎、統(tǒng)一計算引擎、統(tǒng)一分布式存儲管理、統(tǒng)一資源調(diào)度、統(tǒng)一內(nèi)聯(lián)架構(gòu)高效搞定湖倉集一體、HTAP等復(fù)雜場景,無需平湊組件散裝架構(gòu)。
TDH提供的容器隔離、災(zāi)備、訪問控制、聯(lián)邦學(xué)習(xí)、隱私保護(hù)、可信計算等技術(shù)保障網(wǎng)絡(luò)層、加固層、治理層、流通層全方位數(shù)據(jù)安全。
TDH完全自研,通過工信部代碼自主研發(fā)率掃描測試。同時TDH完成了與主流信創(chuàng)生態(tài)廠商的適配互認(rèn)工作,滿足信創(chuàng)驗收要求。
遷移到CDP
遷移方向的對比分析
以下分別從兼容性、技術(shù)領(lǐng)先性、性能、易用性、穩(wěn)定性、災(zāi)備與可靠性、安全性、自主可控、國產(chǎn)生態(tài)、解決方案、售后服務(wù)等多方面對比各遷移方向,供用戶參考。
兼容性
兼容性,直接決定遷移成本。很多客戶認(rèn)為CDP是CDH/HDP的高版本,應(yīng)可以平滑升級,基于開源整合的產(chǎn)品,也可以平滑升級,而TDH是國內(nèi)自主研發(fā)的大數(shù)據(jù)產(chǎn)品,兼容性不好,升級成本高,其實不然。
1) CDH 5升級CDP有嚴(yán)重組件版本兼容性問題, 包括 sentry 換成ranger,Hive2 升級到 Hive3,升級對組件的兼容性影響大;
2) 例如:某客戶CDH5升級到CDP的升級時間長達(dá)數(shù)月之久。
1) 基礎(chǔ)存儲和計算組件同樣有兼容性問題;
2) CDH安全、運(yùn)維管理等不開源組件和功能無法升級,且目前沒有很好解決方案。
1) TDH基礎(chǔ)存儲和計算組件兼容CDH/HDP,遷移成本低;
2) TDH提供遷移工具,數(shù)據(jù)一鍵遷移;
3) 大量遷移成功案例,不存在遷移風(fēng)險。
技術(shù)領(lǐng)先性
TDH產(chǎn)品技術(shù)始終領(lǐng)先于同類型產(chǎn)品2~3年,在大數(shù)據(jù)技術(shù)領(lǐng)域較早實現(xiàn)多項技術(shù)突破,例如2015年TDH4.0就完整支持分布式事務(wù),同類型如Hive在多年后任然不能很好支持;2016年發(fā)布的TDH5.0推出新一代資源管理與調(diào)度技術(shù),將容器技術(shù)和大數(shù)據(jù)技術(shù)有效結(jié)合,提供有效的資源隔離技術(shù)同時帶來極致的安裝和升級體驗,Cloudera 2020年也計劃相關(guān)產(chǎn)品使用這一解決方案;2020年TDH 7.0推出了創(chuàng)新的多模技術(shù)架構(gòu),實現(xiàn)了通過統(tǒng)一SQL引擎對關(guān)系型、文本、圖數(shù)據(jù)、時空、時序等數(shù)據(jù)模型進(jìn)行操作,在行業(yè)內(nèi)處于先進(jìn)水平。
星環(huán)科技TDH多模型數(shù)據(jù)管理平臺技術(shù)架構(gòu)圖
星環(huán)科技長期在大數(shù)據(jù)基礎(chǔ)軟件研發(fā)與產(chǎn)品化過程中自主研發(fā)形成了一系列先進(jìn)的核心技術(shù),這支撐了TDH產(chǎn)品的先進(jìn)性,也在金融、政府、能源、交通、制造業(yè)等國民經(jīng)濟(jì)重點(diǎn)領(lǐng)域中得到廣泛應(yīng)用。隨著公司研發(fā)投入大幅提升,未來星環(huán)TDH將持續(xù)保持技術(shù)領(lǐng)先的優(yōu)勢。
性能提升
Inceptor 是星環(huán)科技自主研發(fā)的關(guān)系型分析引擎,基于TPCDS 1TB的數(shù)據(jù)規(guī)模,同等配置下(4X10cores)TDH(Inceptor)和CDP(Hive on Tez)進(jìn)行性能對比,復(fù)雜場景有7~25X性能提升。
Hyperbase是星環(huán)科技自主研發(fā)的NoSQL寬表數(shù)據(jù)庫,基于1000W條的數(shù)據(jù)集,TDH(Hyperbase)性能優(yōu)于CDP(Hbase)。
ArgoDB是星環(huán)科技自主研發(fā)的分布式關(guān)系型數(shù)據(jù)庫,基于TPCDS 1TB的數(shù)據(jù)規(guī)模,同等配置下(4X10cores)TDH(ArgoDB)和CDP(Impala)進(jìn)行Ad Hoc查詢性能對比情況,具體性能對比如圖所示:
基于TPC-H 1TB的數(shù)據(jù)規(guī)模,同等配置下,基于不同的查詢分析場景下,TDH(ArgoDB)性能是CDP(Impala)的2~6X。
Slipstream是星環(huán)科技自主研發(fā)的實時流計算引擎,在多場景上性能整體優(yōu)于CDP(Flink)。
星環(huán)科技全文搜索引擎 Scope吞吐量測試性能上優(yōu)于ES。
易用性
CDP/開源封裝產(chǎn)品使用一系列孤立的SQL 引擎, 如Apache SparkSQL、Apache Hive、Phoenix(SQL on Hbase)、Cloudera Impala等。每個SQL 引擎都有各自的局限性,使得用戶難于學(xué)習(xí)掌握,開發(fā)使用、應(yīng)用對接、實際落地、事后運(yùn)維方面成本高。
星環(huán)科技TDH采用自研統(tǒng)一計算引擎,提供統(tǒng)一SQL接口處理,支持SQL 2003標(biāo)準(zhǔn)與存儲過程,并且支持Oracle/DB2/Teradata 等SQL 方言。
此外,統(tǒng)一引擎另一個好處是,各類存儲的數(shù)據(jù)可以在一個作業(yè)(如一個SQL語句)中,被抽取到統(tǒng)一引擎中進(jìn)行分布式計算,而無需開發(fā)人員自己寫分布式代碼,從各個引擎中讀取數(shù)據(jù)再加工。整個易用性、開發(fā)效率和運(yùn)行效率都提高很多。
TDH的多模型支持特性可輕松勝任復(fù)雜場景。通過8種獨(dú)立的存儲引擎,支持業(yè)界主流的10種存儲模型:關(guān)系型數(shù)據(jù)存儲、寬表存儲、搜索引擎、地理空間 存儲、圖存儲、鍵值存儲、事件存儲、時序存儲、文本存儲、對象存儲。在一個數(shù)據(jù)庫中同時支持多種數(shù)據(jù)模型(例如關(guān)系表、文本和圖片),可以避免分庫分表,簡化了應(yīng)用的設(shè)計,支持直接高速存儲、檢索和統(tǒng)計多模型的數(shù)據(jù)。
CDP/開源封裝產(chǎn)品通過多個互相獨(dú)立的組件提供相應(yīng)的能力,復(fù)雜場景需要多個組件+數(shù)據(jù)冗余完成,中間的開發(fā)和運(yùn)維十分不便。
TDH提供SQL開發(fā)工具、輕量級ETL工具、數(shù)據(jù)調(diào)度工作流工具、圖形化數(shù)據(jù)建模工具、交互式分析與Cube設(shè)計工具、元數(shù)據(jù)管理工具、可視化報表、大數(shù)據(jù)治理工具、災(zāi)備工具等大量易用性工具。
穩(wěn)定性
星環(huán)科技TDH自研的計算引擎Quark擁有:
1) 分布式調(diào)度算法Furion Scheduler,支持task級別調(diào)度能力,相比CDP/開源封裝產(chǎn)品Task set級別調(diào)度,在業(yè)務(wù)混合負(fù)載并發(fā)高效果和穩(wěn)定性更好,不會出現(xiàn)一個大任務(wù)占滿資源把引擎跑崩,集群規(guī)模大情況下表現(xiàn)尤為明顯;
2) Shuffle過程內(nèi)存控制技術(shù),當(dāng)數(shù)據(jù)量超過一定閥值時中間結(jié)果會spill到磁盤,不會出現(xiàn)OOM情況;
3) 聚合采樣技術(shù),當(dāng)聚合率不高或者占用內(nèi)存太多時,會放棄預(yù)聚合,直接shuffle,來保證引擎穩(wěn)定性;
4) Server級別HA,不存在server 單點(diǎn)故障;
5) Task重試機(jī)制,task級別重試使得大任務(wù)重試代價小,不會出現(xiàn)一個大任務(wù)不斷重試把引擎跑崩情況;
6) 計算引擎保護(hù)機(jī)制,在特別情況如誤提交超大表笛卡爾積計算任務(wù),引擎會直接拒絕執(zhí)行SQL,進(jìn)一步保護(hù)計算引擎,保證穩(wěn)定性;
7) 分布式Checkpoint容錯機(jī)制,相比ACK機(jī)制,效率和穩(wěn)定性更優(yōu)。
星環(huán)科技TDH在存儲層面具備:
1) 小文件自動合并技術(shù),同等數(shù)據(jù)量情況下,文件數(shù)遠(yuǎn)少于CDP/開源封裝產(chǎn)品,大數(shù)據(jù)量情況下穩(wěn)定性高;
2) 堆外內(nèi)存技術(shù),單機(jī)容量得到提升,同時避免full GC導(dǎo)致的集群穩(wěn)定性問題,如Scope穩(wěn)定運(yùn)行單機(jī)容量可達(dá)50TB,而CDP/開源ES上限只有10TB;
3) 分布式Raft協(xié)議,支持集群規(guī)模更大更穩(wěn)定,如ArgoDB可穩(wěn)定支持2000+節(jié)點(diǎn)集群,可以根據(jù)企業(yè)需求線性擴(kuò)容,支持PB級數(shù)據(jù)存儲;而CDP(Kudu)單集群最大規(guī)模不超過100個存儲節(jié)點(diǎn),單節(jié)點(diǎn)超過8T存儲就會不穩(wěn)定;
除此之外,自研的讀寫分離技術(shù)、索引技術(shù)、壞盤處理技術(shù)等,配合全流程監(jiān)控告警能力, 讓TDH支持系統(tǒng)7*24小時穩(wěn)定運(yùn)行。
這些能力是CDP/開源封裝產(chǎn)品不具備的,因而在文件數(shù)多、數(shù)據(jù)量大、任務(wù)并發(fā)高、集群規(guī)模大的情況下,TDH整體穩(wěn)定性遠(yuǎn)超CDP/開源封裝產(chǎn)品。
災(zāi)備與可靠性
TDH有數(shù)據(jù)同步備份工具,原廠級組件支持,基于數(shù)據(jù)塊級別復(fù)制數(shù)據(jù)備份效率高、代價低,支持熱備、溫備、冷備等多種數(shù)據(jù)備份模式,支持全量備份/全量同步/增量同步,開放接口供其他工具或應(yīng)用調(diào)用,具有全流程可視化界面。
CDP/開源封裝產(chǎn)品目前主要還是依賴多副本機(jī)制保障集群內(nèi)數(shù)據(jù)可靠性,異地容災(zāi)沒有高效方案,只能做到HDFS的數(shù)據(jù)拷貝,效率低、代價大。
安全性
星環(huán)科技TDH提供了大數(shù)據(jù)安全合規(guī)能力,在企業(yè)構(gòu)建大數(shù)據(jù)能力的同時,確保數(shù)據(jù)業(yè)務(wù)的安全合規(guī)。平臺基于敏感識別與分類分級,幫助企業(yè)實現(xiàn)大數(shù)據(jù)資產(chǎn)的分類管理,分級保護(hù)。支持多種數(shù)據(jù)安全防護(hù)能力,包括靜態(tài)脫敏、動態(tài)脫敏、數(shù)據(jù)水印,加強(qiáng)了數(shù)據(jù)業(yè)務(wù)事中控制能力。平臺還支持以數(shù)據(jù)為中心的監(jiān)測與審計能力,能識別敏感數(shù)據(jù)操作并進(jìn)行用戶實體行為分析,能及時進(jìn)行告警,提供事后可查溯源的能力。
CDP/開源封裝產(chǎn)品不具備這些能力。
自主研發(fā)
自主可控方面TDH有絕對優(yōu)勢,TDH產(chǎn)品通過工信部自主代碼掃描測試。
CDP完全是國外軟件,不可控,國產(chǎn)軟硬支持不好。
開源封裝產(chǎn)品依賴開源,不能自主可控,很多組件受美國法律限制,不能規(guī)避“被制裁”風(fēng)險。部分產(chǎn)品有l(wèi)icense風(fēng)險,如ES已經(jīng)改開源license策略了,后續(xù)商用存在一定的風(fēng)險。
國產(chǎn)生態(tài)
星環(huán)科技TDH已完成與主流信創(chuàng)生態(tài)廠商的適配互認(rèn)工作,適配長城飛騰、華為泰山、浪潮等服務(wù)器,鯤鵬、飛騰CPU,麒麟、統(tǒng)信等OS,并有官方認(rèn)證,支持基于ARM與X86服務(wù)器服務(wù)器混合部署并有落地案例,滿足信創(chuàng)驗收要求。CDP在國產(chǎn)化服務(wù)器、CPU、GPU資源池化、操作系統(tǒng)等方面支持能力不足,無法很好地滿足國產(chǎn)生態(tài)。
在國產(chǎn)生態(tài)方面,TDH已經(jīng)有非常多落地案例,并且性能提升明顯。在不同指令集的CPU架構(gòu)均表現(xiàn)出優(yōu)異的性能,如ARM(鯤鵬)和X86(海光)在CPU密集型計算和IO密集型計算上性能提升顯著。
解決方案
星環(huán)科技TDH統(tǒng)一內(nèi)聯(lián)大數(shù)據(jù)底座優(yōu)于CDP/開源封裝產(chǎn)品的散裝數(shù)據(jù)底座。
CDP/開源封裝產(chǎn)品,每個場景需要一個組件獨(dú)立交付,開發(fā)語言和接口基本完全不同,客戶新業(yè)務(wù)開發(fā)、業(yè)務(wù)需求變更成本極高。
售后服務(wù)
TDH的產(chǎn)品提供方星環(huán)科技是國內(nèi)廠商,具有非常強(qiáng)大的研發(fā)、技術(shù)支持與服務(wù)能力,可以快速響應(yīng)客戶定制化需求,提供強(qiáng)大的原廠售后服務(wù)保障能力。
CDP的產(chǎn)品提供方Cloudera依靠國內(nèi)代理商提供銷售并提供實施、運(yùn)維服務(wù);Cloudera在國內(nèi)主要是運(yùn)維人員,沒有原廠技術(shù)研發(fā)人員,很難保障SLA。由于支持不到位,很多國內(nèi)CDH企業(yè)版客戶已經(jīng)購買了或者希望購買星環(huán)科技技術(shù)人員提供技術(shù)保障。
某開源封裝產(chǎn)品對營運(yùn)商客戶采用直銷方式,其他客戶一律采用渠道銷售方式,大部分行業(yè)原廠售后服務(wù)保障能力較低。其產(chǎn)品核心研發(fā)團(tuán)隊較少,大部分技術(shù)人員在處理各類開源技術(shù)Bug及客戶問題遠(yuǎn)程技術(shù)支持,專業(yè)性不足。
遷移案例
某通信集團(tuán)
該集團(tuán)核心業(yè)務(wù)系統(tǒng)存量數(shù)據(jù)10PB級別,每日增量數(shù)TB,批處理作業(yè)數(shù)千個,數(shù)據(jù)量大,業(yè)務(wù)價值高。
原有系統(tǒng)使用CDH+Oracle混合架構(gòu),CDH 有近200節(jié)點(diǎn),主要承擔(dān)數(shù)據(jù)批處理加工,Oracle對接上層應(yīng)用,CDH散裝架構(gòu)和CDH+Oracle混合架構(gòu)帶給客戶巨大的開發(fā)運(yùn)維成本,同時批處理性能、穩(wěn)定性和安全性也無法滿足客戶數(shù)據(jù)增長需求。
最終星環(huán)科技在項目一期用TDH成功遷移了客戶CDH+Oracle混合架構(gòu)的數(shù)據(jù)平臺,“一個頂兩”,并且數(shù)據(jù)稽核、聯(lián)邦計算、資源調(diào)度、安全性、高可用、易用性等關(guān)鍵能力得到增強(qiáng),真正實現(xiàn)“降本增效”。
遷移全程用時6個月不到,充分體現(xiàn)了TDH對CDH的兼容性,以及Oracle方言和存儲過程支持能力。
隨著一些新應(yīng)用上線,目前TDH集群生產(chǎn)環(huán)境擴(kuò)容至近200個節(jié)點(diǎn),直接對接經(jīng)營分析、計費(fèi)、客服、賬務(wù)、結(jié)算等系統(tǒng)。
某航空公司
該航空公司原來使用HDP+Oracle混合架構(gòu)建設(shè)企業(yè)數(shù)據(jù)平臺,涉及流處理、批處理、高并發(fā)查詢等技術(shù)場景。
客戶部署了幾十個節(jié)點(diǎn)的HDP集群,但是散裝架構(gòu)帶給客戶巨大的開發(fā)運(yùn)維成本,同時性能、實時性和穩(wěn)定性也無法滿足客戶需求。
最終星環(huán)科技一期項目用TDH成功遷移了客戶HDP集群,由于TDH對HDP的兼容性高,全部數(shù)據(jù)+業(yè)務(wù)遷移不到5個月時間(包含1個月并行運(yùn)行測試)。
當(dāng)前TDH集群近百個節(jié)點(diǎn),TDH極好的SQL和Oracle方言支持讓客戶上線了很多新應(yīng)用。
馬龍
版權(quán)所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務(wù)經(jīng)營許可證備案號:遼ICP備14006349號
網(wǎng)站介紹 商務(wù)合作 免責(zé)聲明 - html - txt - xml