在主題為“科技賦能—金融業(yè)數(shù)字化轉(zhuǎn)型與發(fā)展”的中國金融科技論壇上,神州信息上地大數(shù)據(jù)研究院數(shù)據(jù)科學(xué)家卜仁海做了題為《關(guān)于湖倉一體數(shù)據(jù)平臺(tái)的思考》的演講。
以下為演講實(shí)錄:
首先,我們來看一下數(shù)據(jù)平臺(tái)的發(fā)展歷程。
大約20多年前,信息化程度較高的行業(yè)的頭部企業(yè),開始建設(shè)數(shù)據(jù)倉庫。當(dāng)時(shí)的數(shù)據(jù)主要是企業(yè)內(nèi)部系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)應(yīng)用主要是BI分析及報(bào)表。隨著業(yè)務(wù)需求及數(shù)據(jù)形態(tài)的變化,開始建設(shè)數(shù)據(jù)湖。原因是參與分析的非結(jié)構(gòu)化數(shù)據(jù)逐漸增多,數(shù)據(jù)應(yīng)用也有了新的擴(kuò)展,實(shí)時(shí)計(jì)算、人工智能、機(jī)器學(xué)習(xí)等場景逐漸增多。
最近幾年,開始流行起了湖倉一體的數(shù)據(jù)平臺(tái)概念。
需要說明的是,這張圖來自國外,圖里沒有出現(xiàn)數(shù)據(jù)倉庫,這并不是說數(shù)據(jù)倉庫消失了。當(dāng)我們說數(shù)據(jù)倉庫、數(shù)據(jù)湖的時(shí)候,其實(shí)有兩種說法,一種說法是指硬件平臺(tái),一種說法是指數(shù)據(jù)的組織結(jié)構(gòu)。這張圖里說的是硬件平臺(tái),指的是用一個(gè)硬件平臺(tái)來實(shí)現(xiàn)湖和倉的建設(shè),也被認(rèn)為是真正的湖倉一體。
國內(nèi)在規(guī)劃建設(shè)湖倉一體的時(shí)候,在方式上會(huì)相對靈活些。
國內(nèi)建設(shè)湖倉一體的方式
接下來,我們來看一下國內(nèi)建設(shè)湖倉一體的幾種方式。方式一和方式二我們可以認(rèn)為是邏輯上的一體,方式三是平臺(tái)級的一體。
方式一采用融合的方式,數(shù)倉平臺(tái)和數(shù)據(jù)湖平臺(tái)間存在實(shí)際上的數(shù)據(jù)復(fù)制,如果數(shù)據(jù)的管理、調(diào)度等自動(dòng)化程度較低,流程不完善,則不僅僅是數(shù)據(jù)冗余的問題,還涉及到應(yīng)用效率等方面的問題
方式二采用編織的方式,數(shù)倉平臺(tái)和數(shù)據(jù)湖平臺(tái)間可以不用數(shù)據(jù)復(fù)制,業(yè)務(wù)人員的訪問接口是Fabric組件,由此組件解析優(yōu)化訪問語句,計(jì)算處可以是倉、湖以及Fabric組件,具體要看Fabric組件的優(yōu)化策略和能力。需要說明的是,F(xiàn)abric的訪問語句通常不會(huì)完全覆蓋倉、湖數(shù)據(jù)庫的所有語句。
方式三是真正物理平臺(tái)上的一體,或者說其上的各個(gè)數(shù)據(jù)庫可以直接訪問彼此的文件系統(tǒng)和存儲(chǔ)結(jié)構(gòu),這也是最理想的情況。
湖倉一體數(shù)據(jù)平臺(tái)的優(yōu)勢
為什么說湖倉一體大概率是數(shù)據(jù)平臺(tái)的趨勢呢,它有什么好處呢?
首先,它可以容納多模態(tài)的數(shù)據(jù),比如音頻、視頻、圖片、文檔等。其次,豐富的計(jì)算引擎,簡單的說,就是無論什么樣的數(shù)據(jù),都可以相對容易的找到其對應(yīng)的計(jì)算引擎并部署。并且是存算分離的,也就是說,存儲(chǔ)部件和計(jì)算部件是分離的,可以各自彈性擴(kuò)展。流批計(jì)算一體。支持人工智能、機(jī)器學(xué)習(xí)。
數(shù)據(jù)平臺(tái)經(jīng)歷了分的過程,目的是為了滿足不同數(shù)據(jù)的不同計(jì)算需求,現(xiàn)如今正逐漸走向合的階段,目的是為了易管易用、簡單高效。技術(shù)總是在不斷進(jìn)步的,湖倉一體尚在逐步發(fā)展階段。通過我們對不同湖倉產(chǎn)品平臺(tái)的了解,以及對未來湖倉一體的期待,這里簡單提出一點(diǎn)想法,請大家批評指正。
對未來湖倉一體的期待
比如,我們是否可以將存算分離分地再徹底一些?
企業(yè)的數(shù)據(jù)是越來越多的,計(jì)算基于數(shù)據(jù),同樣也不會(huì)是局限的。拿數(shù)據(jù)庫來說,關(guān)系型數(shù)據(jù)庫、圖數(shù)據(jù)庫、KV數(shù)據(jù)庫、時(shí)序數(shù)據(jù)庫、向量數(shù)據(jù)庫等等。另外,大模型又為我們提供了一個(gè)新的數(shù)據(jù)計(jì)算場景。也就是從邏輯上看,數(shù)據(jù)的存儲(chǔ)和數(shù)據(jù)的計(jì)算,天然的是可以分離的。只是因?yàn)橐恍┓羌夹g(shù)壁壘及其它原因,導(dǎo)致不同數(shù)據(jù)庫間難以實(shí)現(xiàn)直接的數(shù)據(jù)訪問。
這里我們只從存技術(shù)角度,考慮將企業(yè)對數(shù)據(jù)的存和算建設(shè)成兩個(gè)分離的中心,也就是湖倉一體的兩個(gè)重要組件。
存儲(chǔ)中心需要考慮的是如何建設(shè)一個(gè)高效的存儲(chǔ)架構(gòu)和網(wǎng)絡(luò)架構(gòu),如何實(shí)現(xiàn)一個(gè)高效的數(shù)據(jù)訪問機(jī)制和接口,它應(yīng)該有自己的文件系統(tǒng)、尋址機(jī)制、緩存機(jī)制等等。
計(jì)算中心需要考慮的是如何設(shè)計(jì)一個(gè)高效靈活的資源管理和調(diào)度策略,如何靈活配置接入其它計(jì)算引擎組件,如何實(shí)現(xiàn)一個(gè)高效的緩存機(jī)制減少與存儲(chǔ)中心的數(shù)據(jù)吞吐等等。對于像大模型這類計(jì)算應(yīng)用,我們當(dāng)然也希望湖倉一體有這個(gè)能力承接。
當(dāng)然,這些僅是對湖倉一體未來能力的暢想,未必就是各家企業(yè)的場景應(yīng)用需求。各企業(yè)基于自身數(shù)據(jù)基礎(chǔ)、當(dāng)前數(shù)據(jù)應(yīng)用的痛點(diǎn)和需求以及未來數(shù)據(jù)架構(gòu)布局及規(guī)劃,對湖倉一體的期待各有不同。
湖倉一體體系架構(gòu)
我們先從湖倉一體體系架構(gòu)的角度簡單看下體系建設(shè)內(nèi)容。
這里的體系架構(gòu)是從功能層面闡述框架內(nèi)容的。體系架構(gòu)的意義不僅可以用來定義各框架的規(guī)范、邊界、接口、制度、流程等內(nèi)容,還可以用來評估當(dāng)前數(shù)據(jù)體系建設(shè)及運(yùn)營情況,指引接下來的建設(shè)內(nèi)容等。
此圖僅作參考,各企業(yè)可按自身實(shí)際情況做相應(yīng)改動(dòng),但需要注意的是不要把產(chǎn)品平臺(tái)當(dāng)成框架本身。比如神州信息的數(shù)據(jù)開發(fā)平臺(tái)“六合上甲”,平臺(tái)本身包含了需求管理、數(shù)據(jù)建模、數(shù)據(jù)開發(fā)、采集交換、數(shù)據(jù)服務(wù)、數(shù)據(jù)治理等內(nèi)容,它跨接了體系框架的多個(gè)組成部分,需要通過規(guī)范接口對接各框架組件,“六合上甲”產(chǎn)品本身不是體系框架。圖中的探索、標(biāo)簽、指標(biāo)其實(shí)是數(shù)據(jù)產(chǎn)品管理框架的實(shí)際組成產(chǎn)品,這里用產(chǎn)品平臺(tái)來說明其為框架與產(chǎn)品的區(qū)別。
湖倉一體數(shù)據(jù)架構(gòu)
接下來再看一下湖倉一體的數(shù)據(jù)架構(gòu)情況
這里是采用方式三物理一體的實(shí)現(xiàn)方式設(shè)計(jì)的簡單數(shù)據(jù)架構(gòu),僅供參考。對于數(shù)據(jù)量、業(yè)務(wù)量、復(fù)雜度不高的企業(yè)而言,數(shù)據(jù)倉庫可以基于應(yīng)用建設(shè),即數(shù)倉只要滿足企業(yè)級報(bào)表和部分?jǐn)?shù)據(jù)分析的需求即可,需求相對固定且穩(wěn)定。對于業(yè)務(wù)部門敏捷靈活的分析應(yīng)用而言,其數(shù)據(jù)源可以來自標(biāo)準(zhǔn)化數(shù)據(jù)區(qū)。
標(biāo)準(zhǔn)化數(shù)據(jù)區(qū)對于那些對數(shù)據(jù)流向管控嚴(yán)格,要求凡是數(shù)據(jù)需求可由數(shù)倉提供的,不允許從湖區(qū)直接取數(shù)的企業(yè)而言,可以不建設(shè)。但同時(shí)會(huì)對數(shù)倉的建設(shè)及其數(shù)據(jù)產(chǎn)品運(yùn)維推廣工作要求較高。
數(shù)據(jù)架構(gòu)中定義的數(shù)據(jù)區(qū)不是簡單的數(shù)據(jù)容器,它同時(shí)也定義了規(guī)范、邊界、制度、流程、接口等等,數(shù)據(jù)產(chǎn)品的開發(fā)運(yùn)維及相應(yīng)的資源配置是其運(yùn)營的關(guān)鍵。部分企業(yè)在數(shù)據(jù)運(yùn)營中的痛點(diǎn)多多少少與此相關(guān),這不是有了湖倉一體就能解決的問題,但卻可以通過湖倉一體建設(shè)為契機(jī),通過咨詢及服務(wù)的方式,幫助企業(yè)及其各部門建設(shè)相配套的數(shù)據(jù)團(tuán)隊(duì),來實(shí)現(xiàn)企業(yè)的數(shù)字化轉(zhuǎn)型。