科技改變生活 · 科技引領(lǐng)未來
概述最近一個月,華為公司面向全球發(fā)布了人工智能原生(AI-Native)數(shù)據(jù)庫GaussDB和業(yè)界性能的分布式存儲FusionStorage8.0,將多年的AI技術(shù)和能力以及數(shù)據(jù)庫經(jīng)驗融入到新品,實現(xiàn)很多創(chuàng)新性突破,比如人工智能技術(shù)融入分布
概述
最近一個月,華為公司面向全球發(fā)布了人工智能原生(AI-Native)數(shù)據(jù)庫GaussDB和業(yè)界性能的分布式存儲FusionStorage 8.0,將多年的AI技術(shù)和能力以及數(shù)據(jù)庫經(jīng)驗融入到新品,實現(xiàn)很多創(chuàng)新性突破,比如人工智能技術(shù)融入分布式數(shù)據(jù)庫的全生命周期、一套存儲可同時支持塊、文件、對象、HDFS協(xié)議等。
其中,最為標桿性的場景應(yīng)用實屬招商銀行,在實踐中:
華為GaussDB管理數(shù)據(jù)容量提升10倍,AZ內(nèi)故障恢復(fù)速度提升30倍。以故障恢復(fù)為例,GaussDB的RTO時間小于1秒,而其他廠商則需要30秒;
FusionStorage 8.0在招行,部署渠道接入、開發(fā)測試、VDI以及大數(shù)據(jù)系統(tǒng),一套存儲替代原有4種存儲設(shè)備,節(jié)省40%的TCO,業(yè)務(wù)上線速度提升9倍。其次,將人工智能技術(shù)融入存儲全生命周期管理,從資源規(guī)劃、業(yè)務(wù)發(fā)放、系統(tǒng)調(diào)優(yōu)、風(fēng)險預(yù)測和故障定位等方面實現(xiàn)智能運維管理,實現(xiàn)云上云下協(xié)同。再者,分布式存儲性能業(yè)界第一,單節(jié)點性能高達16.8萬每秒讀寫速度(IOPS)和1毫秒以內(nèi)延時。基于ARM的算力,IOPS提升20%,基于AI Fabric網(wǎng)絡(luò),時延降低15%。
歷時9年的研發(fā)和打磨,低調(diào)謹慎的華為終于掀開了GaussDB數(shù)據(jù)庫的神秘面紗,讓之走到了臺前。
其實,GaussDB并非是一個產(chǎn)品,而是系列產(chǎn)品的統(tǒng)稱,目前GaussDB至少包含有3款產(chǎn)品,有面向OLTP的數(shù)據(jù)庫,面向OLAP的數(shù)據(jù)倉庫,還有面向事務(wù)和分析混合處理的HTAP數(shù)據(jù)庫。
數(shù)據(jù)庫內(nèi)核開發(fā)路漫漫
做數(shù)據(jù)庫內(nèi)核開發(fā)如在刀尖上跳舞,壓力很大,但凡在內(nèi)核架構(gòu)與機制制定上有一絲一毫沒考慮清楚,那么,上線就一定會出問題,后果嚴重。因為,一旦確定的方向進行不下去,就會導(dǎo)致推倒重來。一位核心研發(fā)工程師對筆者說。
2007年,因為電信實時計費項目困境,華為開始組織人手研發(fā)內(nèi)存數(shù)據(jù)庫,項目代號GMDB,這是可追溯華為最早的數(shù)據(jù)庫研發(fā)記錄。
當(dāng)時,華為決定自研內(nèi)存數(shù)據(jù)庫的想法并不高大上,而是很單純,完全不是外界所猜想的搞個數(shù)據(jù)庫去售賣并干掉誰,純粹只是因為在電信計費領(lǐng)域,華為解決方案找不到能與之很好契合的數(shù)據(jù)庫,僅此而已。
眾所周知,電信行業(yè)對數(shù)據(jù)庫要求較高,尤其是可用性,定制化需求較多,涉及改動工作量大,而采用國外數(shù)據(jù)庫,讓原廠來配合改動,人家未必會配合。因此,無奈下,華為被迫走上了自研數(shù)據(jù)庫的道路,以此來提升自身解決方案的競爭力。
不過,2007年的GMDB并沒有取得大規(guī)模商用,只在小范圍內(nèi)進行試用,但這個版本卻鍛煉了一大批人。當(dāng)時,國內(nèi)對數(shù)據(jù)庫內(nèi)核開發(fā)知之甚少,有經(jīng)驗者寥寥,都是摸著石頭過河。
但有苗不愁長,到了2010年,華為數(shù)據(jù)庫研發(fā)團隊開始對2007年版本進行全面重構(gòu),并寫下了重構(gòu)版本的第一行代碼:
“typedef struct st_database{...}database_t;”
數(shù)據(jù)庫對象的定義。
從這個版本開始,華為數(shù)據(jù)庫的定位已經(jīng)不再僅局限于內(nèi)存數(shù)據(jù)庫,而是在向通用關(guān)系型數(shù)據(jù)庫逐漸轉(zhuǎn)變,重構(gòu)過程中,開始融入大量非內(nèi)存數(shù)據(jù)庫的特性,這就是Gauss OLTP數(shù)據(jù)庫的前身。
重構(gòu)后的版本,質(zhì)量上取得了顯著提升,2012年,GMDB開始大規(guī)模商用,主要應(yīng)用于電信計費領(lǐng)域,同時,在華為內(nèi)部,眾多配套的解決方案也開始使用GMDB。
華為GaussDB 200
華為GaussDB 200開始于2012年,研發(fā)團隊分析了業(yè)界數(shù)據(jù)庫相關(guān)理論和技術(shù),在基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的SQL引擎和事務(wù)強一致性等基礎(chǔ)上,進行了分布式、并行計算的改造。歷時6年,打造了一款架構(gòu)領(lǐng)先的分析型數(shù)據(jù)庫,為各行業(yè)PB級海量數(shù)據(jù)分析提供有競爭力的解決方案。
GaussDB 200可以很好兼容標準ANSI SQL 99/2003語法和PostgreSQL生態(tài)。
與傳統(tǒng)數(shù)據(jù)倉庫產(chǎn)品使用專有硬件不同,GaussDB 200運行在通用X86服務(wù)器上,采用MPP+shared-nothing架構(gòu),因而能夠具備良好的擴展性。可以在不中斷業(yè)務(wù)的前提下,實現(xiàn)數(shù)據(jù)庫的在線擴容。
這個擴容采用表級擴容機制,即完即用,支持未擴容表與已擴容表之間關(guān)聯(lián)分析;通過引入一套增量機制記錄擴容重分布過程中的數(shù)據(jù)修改(增刪改),待基線數(shù)據(jù)重分布完成后,將增量數(shù)據(jù)Merge到擴容后的集群中;提供任務(wù)自動等待Retry機制,確保新舊數(shù)據(jù)切換業(yè)務(wù)不中斷、無感知。
GaussDB 200 MPP節(jié)點間并行+SMP單機多核并行+列存向量化指令集并行+LLVM機器碼編譯等技術(shù),可以充分發(fā)揮集群硬件資源,能夠達到萬億級數(shù)據(jù)查詢秒級響應(yīng)的能力。其中通用X86服務(wù)器上,可以提供彈性集群、跨代兼容等特性,避免硬件鎖定。
GaussDB 200支持通過SQL訪問HDFS上的數(shù)據(jù),支持CUDF,支持全文檢索,從而為數(shù)據(jù)業(yè)務(wù)創(chuàng)新,提供簡單應(yīng)用的技術(shù)手段。
總結(jié)
還記得華為GaussDB發(fā)布視頻中的一行文字:向數(shù)學(xué)致敬、向科學(xué)家致敬。GaussDB,不僅蘊含著華為對數(shù)學(xué)和科學(xué)的敬畏,也承載著華為對基礎(chǔ)軟件的堅持和夢想。
后面會分享更多devops和DBA方面的內(nèi)容,感興趣的朋友可以關(guān)注一下~
馬陽
版權(quán)所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務(wù)經(jīng)營許可證備案號:遼ICP備14006349號
網(wǎng)站介紹 商務(wù)合作 免責(zé)聲明 - html - txt - xml