如何構(gòu)建銀行數(shù)據(jù)倉庫
系統(tǒng)
1994 0
數(shù)據(jù)倉庫技術(shù)作為一項(xiàng)數(shù)據(jù)管理領(lǐng)域的新技術(shù),其精髓在于針對聯(lián)機(jī)分析處理(OLAP)提出了一種綜合的解決方案,與以往很多技術(shù)不同的是,它主要是一種概念,在此概念指導(dǎo)下完成系統(tǒng)的構(gòu)造。既沒有可以直接購買到的現(xiàn)成產(chǎn)品,也沒有具體的分析規(guī)范和實(shí)現(xiàn)方法,也就是說沒有成熟、可靠且被廣泛接受的數(shù)據(jù)倉庫標(biāo)準(zhǔn)。在以往關(guān)系數(shù)據(jù)庫的設(shè)計和實(shí)現(xiàn)中,不僅有詳細(xì)的理論推導(dǎo),還有無數(shù)的設(shè)計實(shí)例,無論你使用的是什么公司的數(shù)據(jù)庫產(chǎn)品、開發(fā)工具,只要按照規(guī)范做,那么實(shí)現(xiàn)同一業(yè)務(wù)需求的方案都會很相似。而現(xiàn)有數(shù)據(jù)倉庫的實(shí)現(xiàn)中,出現(xiàn)了MOLAP方案和ROLAP方案的區(qū)別,出現(xiàn)了形形色色的數(shù)據(jù)倉庫建模工具、表現(xiàn)工具,而設(shè)計人員的個人經(jīng)驗(yàn)和素質(zhì)也會在其中扮演很重要的角色。
|
數(shù)據(jù)倉庫技術(shù)的實(shí)現(xiàn)方式
|
目前在數(shù)據(jù)倉庫技術(shù)的實(shí)際應(yīng)用中主要包括如下幾種具體實(shí)現(xiàn)方式。
|
1、在關(guān)系數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(ROLAP)
|
2、在多維數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(MOLAP)
|
MOLAP方案是以多維方式來組織數(shù)據(jù),以多維方式來存儲數(shù)據(jù);ROLAP方案則以二維關(guān)系表為核心表達(dá)多維概念,通過將多維結(jié)構(gòu)劃分為兩類表:維表和事實(shí)表,使關(guān)系型結(jié)構(gòu)能較好地適應(yīng)多維數(shù)據(jù)的表示和存儲。在多維數(shù)據(jù)模型的表達(dá)方面,多維矩陣比關(guān)系表更清晰且占用的存儲更少,而通過關(guān)系表間的連接來查詢數(shù)據(jù)的ROLAP系統(tǒng),系統(tǒng)性能成為最大問題。MOLAP方案比ROLAP方案要簡明,索引及數(shù)據(jù)聚合可以自動進(jìn)行并自動管理,但同時喪失了一定的靈活性。ROLAP方案的實(shí)現(xiàn)較為復(fù)雜,但靈活性較好,用戶可以動態(tài)定義統(tǒng)計和計算方式,另外能保護(hù)在已有關(guān)系數(shù)據(jù)庫上的投資。
|
由于兩種方案各有優(yōu)劣,因此在實(shí)際應(yīng)用中,往往將MOLAP和ROLAP結(jié)合使用,即所謂的混合模型。利用關(guān)系數(shù)據(jù)庫存儲歷史數(shù)據(jù)、細(xì)節(jié)數(shù)據(jù)或非數(shù)值型數(shù)據(jù),發(fā)揮關(guān)系數(shù)據(jù)庫技術(shù)成熟的優(yōu)勢,減少花費(fèi),而在多維數(shù)據(jù)庫中存儲當(dāng)前數(shù)據(jù)和常用統(tǒng)計數(shù)據(jù),以提高操作性能。
|
3、在原有關(guān)系庫上建立邏輯上的數(shù)據(jù)倉庫
|
由于目前正在運(yùn)行的OLTP系統(tǒng)中已經(jīng)積累了海量數(shù)據(jù),如何從中提取出決策所需的有用信息就成為用戶最迫切的需要。新建數(shù)據(jù)倉庫固然能從功能、性能各方面給出一個完整的解決方案,但需要投入大量的人力、物力,并且數(shù)據(jù)倉庫的建設(shè)和分析數(shù)據(jù)的積累需要一段時間,無法及時滿足用戶對信息分析的迫切需要。因此在籌建數(shù)據(jù)倉庫的前期,可以采用一些合適的表現(xiàn)工具,在原有OLTP系統(tǒng)上建立起一個邏輯的數(shù)據(jù)倉庫系統(tǒng)。盡管由于原有OLTP系統(tǒng)設(shè)計上的局限性,這樣的系統(tǒng)可能無法實(shí)現(xiàn)很多分析功能,但這樣一個系統(tǒng)中數(shù)據(jù)結(jié)構(gòu)固定、信息分析需求相對穩(wěn)定成熟,因此數(shù)據(jù)倉庫的建模、實(shí)現(xiàn)過程會相對容易、便捷;同時,這樣的系統(tǒng)也會成為將來真正數(shù)據(jù)倉庫建設(shè)的原型。
|
信息系統(tǒng)與數(shù)據(jù)倉庫的關(guān)系
|
由于數(shù)據(jù)量大、數(shù)據(jù)來源多樣化,在商業(yè)銀行構(gòu)建管理信息系統(tǒng)時,不可避免地會遇上如何管理這些浩如煙海的數(shù)據(jù),以及如何從中提取有用的信息的問題;而數(shù)據(jù)倉庫的最大優(yōu)點(diǎn)在于它能把企業(yè)網(wǎng)絡(luò)中不同信息島上的商業(yè)數(shù)據(jù)集中到一起,存儲在一個單一的集成的數(shù)據(jù)庫中,并提供各種手段對數(shù)據(jù)進(jìn)行統(tǒng)計、分析。因此可以說,在銀行使用數(shù)據(jù)倉庫構(gòu)建管理信息系統(tǒng),既有壓力,又有數(shù)據(jù)基礎(chǔ),它們之間的聯(lián)系是必然的,難以割舍的。
|
數(shù)據(jù)倉庫在商業(yè)銀行的應(yīng)用范圍包括存款分析、貸款分析、客戶市場分析、相關(guān)金融業(yè)分析決策(證券、外匯買賣)、風(fēng)險預(yù)測、效益分析等。
|
在銀行信息系統(tǒng)構(gòu)建時,由于歷史情況和現(xiàn)實(shí)需求的不同,存在兩種途徑:
|
由于目前國內(nèi)商業(yè)銀行對銀行內(nèi)部運(yùn)營的監(jiān)管,缺乏很好的數(shù)據(jù)搜集機(jī)制,因此可以在構(gòu)建管理信息系統(tǒng)時,分?jǐn)?shù)據(jù)收集錄入和數(shù)據(jù)匯總分析兩部分來考慮。這樣的系統(tǒng)中由于不需考慮大量歷史數(shù)據(jù)的處理問題,同時考慮到搜集過程中可能存在多個數(shù)據(jù)來源,因此可以在系統(tǒng)建設(shè)的同時構(gòu)建數(shù)據(jù)倉庫,將搜集來的各種數(shù)據(jù)通過數(shù)據(jù)抽取整合到數(shù)據(jù)倉庫中。
|
而對于已經(jīng)存在OLTP系統(tǒng),其中沉淀了大量歷史數(shù)據(jù),則可以先在原有系統(tǒng)上建立邏輯數(shù)據(jù)倉庫,即使用數(shù)據(jù)分析的表現(xiàn)工具,在關(guān)系模型上構(gòu)建一個虛擬的多維模型。當(dāng)系統(tǒng)需求穩(wěn)定后,再建立物理數(shù)據(jù)倉庫,這樣既節(jié)省投資,又縮短開發(fā)工期。
|
模型設(shè)計(包括邏輯模型設(shè)計和物理模型設(shè)計)是系統(tǒng)的基礎(chǔ)和成敗的關(guān)鍵,在實(shí)際操作中,視實(shí)現(xiàn)技術(shù)的不同應(yīng)分別對下列問題引起注意。
|
直接構(gòu)建數(shù)據(jù)倉庫時,必須按業(yè)務(wù)分析的要求重組OLTP系統(tǒng)中的數(shù)據(jù),并要按不同側(cè)重點(diǎn)分別組織,使之便于使用。
|
主題是一個邏輯概念,它應(yīng)該能夠完整、統(tǒng)一地刻畫出分析對象所涉及的各項(xiàng)數(shù)據(jù)以及相互聯(lián)系。劃分主題的根據(jù)主要來源于兩方面:對原有固定報表的分析和對業(yè)務(wù)人員的訪談。原有固定報表能較好地反映出以往工作對數(shù)據(jù)分析的需求,而且數(shù)據(jù)含義和格式相對成熟、穩(wěn)定,在模型設(shè)計中需要大量借鑒。但僅僅滿足于替代目前的手工報表還遠(yuǎn)遠(yuǎn)不應(yīng)是構(gòu)建管理信息系統(tǒng)的目標(biāo),還應(yīng)該通過業(yè)務(wù)訪談,進(jìn)一步挖掘出日常工作中潛在的更廣、更深的分析需求。只有這樣,才能真正了解構(gòu)建數(shù)據(jù)倉庫模型所需的主題劃分。
|
主題的劃分實(shí)際上是與分析內(nèi)容的范圍直接相關(guān)的,一旦主題劃分清楚了,下一步就是細(xì)化分析的具體內(nèi)容以及根據(jù)分析內(nèi)容的性質(zhì)確定它在數(shù)據(jù)倉庫中的位置。通常維元素對應(yīng)的是分析角度,而度量對應(yīng)的是分析關(guān)心的具體指標(biāo)。一個指標(biāo)究竟是作為維元素、度量還是維屬性,取決于具體的業(yè)務(wù)需求,但從實(shí)際操作中可以總結(jié)出如下的概念性經(jīng)驗(yàn):作為維元素或維屬性的通常是離散型的數(shù)據(jù),只允許有限的取值;作為度量的是連續(xù)型數(shù)據(jù),取值無限。如果一定要用連續(xù)型數(shù)據(jù)作為維元素,則必須對其按取值進(jìn)行分段,以分段值作為實(shí)際的維元素。判斷分析指標(biāo)是作為維元素還是維屬性時,則需要綜合考慮這個指標(biāo)占用的存儲空間與相關(guān)查詢的使用頻度。
|
需要特別強(qiáng)調(diào)的是,在細(xì)化分析內(nèi)容的過程中,務(wù)必解決指標(biāo)的歧義問題。在不同報表中以及在業(yè)務(wù)訪談中同一名稱的指標(biāo),是否是在同樣條件限定下,通過同樣方法提取或計算得到的,它們之間的相互關(guān)系是什么,這些問題都必須從熟悉業(yè)務(wù)的分析人員那里得到準(zhǔn)確、清晰的答案,否則將會影響到模型設(shè)計、數(shù)據(jù)提取、數(shù)據(jù)展現(xiàn)等多個方面。
|
數(shù)據(jù)倉庫模型中所存儲的數(shù)據(jù)的粒度將對信息系統(tǒng)的多方面產(chǎn)生影響。事實(shí)表中以各種維度的什么層次作為最細(xì)粒度,將決定存儲的數(shù)據(jù)能否滿足信息分析的功能需求,而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應(yīng)時間。
|
如果同一個信息系統(tǒng)要在大范圍、多層次上同時運(yùn)行,如部門級和企業(yè)級,還應(yīng)考慮不同層次的數(shù)據(jù)倉庫采用不同的粒度。
|
復(fù)合指標(biāo)尤其是比率類指標(biāo)的定義,必須注意累加時是先加減后乘除,還是反之。戶數(shù)、筆數(shù)的計算,這類指標(biāo)在分析或報表中經(jīng)常出現(xiàn),但不需要作為單獨(dú)的指標(biāo)物理存在于數(shù)據(jù)庫中,但定義分析模型時一定應(yīng)該準(zhǔn)備。度量的時間特性,針對分析指標(biāo)在時間維上的不同表現(xiàn),可分為可累加指標(biāo)、半可累加指標(biāo)和不可累加指標(biāo)。
|
2、在原有數(shù)據(jù)基礎(chǔ)上構(gòu)建邏輯數(shù)據(jù)倉庫
|
如果直接使用OLTP系統(tǒng)中的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析處理,會遇到許多麻煩,有時甚至是不可能實(shí)現(xiàn)的。這并不是說關(guān)系數(shù)據(jù)庫不好,而是因?yàn)槠湓O(shè)計思路不適應(yīng)較大規(guī)模數(shù)據(jù)分析。因此在使用這種方法時,需要注意下列問題的處理:
|
這是實(shí)現(xiàn)過程中最常遇到的問題,也往往是最難解決的問題。OLTP系統(tǒng)中存儲的時間往往采用與實(shí)際業(yè)務(wù)發(fā)生相同的時間單位,如帳務(wù)數(shù)據(jù)單位為日期,財務(wù)報表單位為月或半年。而面向分析時,往往要將不同時間單位的數(shù)據(jù)統(tǒng)一到同一個結(jié)果中,這樣就必須存在適當(dāng)?shù)霓D(zhuǎn)換機(jī)制才能實(shí)現(xiàn)。
|
所謂冗余信息,就是指不同關(guān)系表中存在的同一含義的字段,而同一含義不僅指這些字段的取得或計算方式一樣,還指它們成立的條件一樣,例如截止某一時間同一地區(qū)的同一貸種的貸款余額。在OLTP系統(tǒng)中,這樣的字段往往是基于性能考慮而設(shè)計的,而在面向分析設(shè)計模型時,為了保證結(jié)果的唯一性和準(zhǔn)確性,就必須用且只用其中之一的數(shù)據(jù)產(chǎn)生分析結(jié)果。
|
由于OLTP系統(tǒng)中表的設(shè)計面向業(yè)務(wù)處理,既要保證數(shù)據(jù)的完整性、一致性,又要考慮響應(yīng)時間,因此表與表之間既相對獨(dú)立,又相互依賴。在設(shè)計數(shù)據(jù)倉庫邏輯模型時,對表間的連接必須做出相應(yīng)取舍,既要保證分析數(shù)據(jù)能通過連接取得或計算出,又要避免出現(xiàn)環(huán)路,造成分析數(shù)據(jù)的歧義。另外,不同的連接途徑還會出現(xiàn)不同的查詢速度,影響數(shù)據(jù)分析的響應(yīng)性能。
|
如果上述問題不能在原有數(shù)據(jù)庫基礎(chǔ)上得到很好的解決,那么權(quán)益之計就是構(gòu)建統(tǒng)計表,即簡單化的數(shù)據(jù)倉庫,形式類似數(shù)據(jù)倉庫的事實(shí)表,定時計算統(tǒng)計數(shù)據(jù)放入,將時間、冗余、連接等問題擯除,進(jìn)行簡單分析。
|
數(shù)據(jù)抽取是一件技術(shù)含量不高,但非常煩瑣的工作,必須有專人負(fù)責(zé)數(shù)據(jù)抽取的工作。在對其進(jìn)行設(shè)計時,要注意的問題有:
|
1、數(shù)據(jù)抽取的規(guī)則要作為元數(shù)據(jù)進(jìn)行規(guī)范和管理,抽取過程中的源表、源字段、目的表、目的字段、轉(zhuǎn)換規(guī)則以及轉(zhuǎn)換條件都要作好詳細(xì)記錄。這樣不僅便于編程人員實(shí)現(xiàn),而且在抽取規(guī)則或邏輯模型發(fā)生變化時也便于修改。
|
2、如何記錄業(yè)務(wù)數(shù)據(jù)庫中的變動情況是數(shù)據(jù)抽取中一個重要的環(huán)節(jié)。由于數(shù)據(jù)倉庫中按時間保存數(shù)據(jù),因此不同時間點(diǎn)之間數(shù)據(jù)的差異就成為一個關(guān)鍵性因素。通常可以利用數(shù)據(jù)庫管理系統(tǒng)提供的手段在數(shù)據(jù)庫級產(chǎn)生數(shù)據(jù)變動日志,根據(jù)日志再判斷數(shù)據(jù)的變動情況完成抽取,這樣是一個從性能、可操作性以及對原業(yè)務(wù)系統(tǒng)的影響等多方面綜合考慮都比較理想的方法。
|
3、當(dāng)數(shù)據(jù)倉庫中同一表中的數(shù)據(jù)來自于原有系統(tǒng)中不同的表,甚至不同的庫時,抽取時務(wù)必保證這些數(shù)據(jù)單位一致,而且都滿足同一時間條件。
|
4、數(shù)據(jù)抽取不僅要考慮數(shù)據(jù)的提取,還要考慮抽取的時間安排和執(zhí)行方式,這樣才是一個完整的數(shù)據(jù)抽取方案,也才能保證抽取出來的數(shù)據(jù)準(zhǔn)確、可用。
|
數(shù)據(jù)倉庫的建設(shè)是一個長期工作,它同其他系統(tǒng)一樣需要在運(yùn)行的過程中不斷進(jìn)行調(diào)整、完善。這其中包括兩方面的工作:
|
數(shù)據(jù)倉庫涉及海量數(shù)據(jù)的查詢,數(shù)據(jù)的大量寫入讀出,不僅對數(shù)據(jù)庫系統(tǒng)的要求很高,而且與OLTP系統(tǒng)的要求極為不同,因此在系統(tǒng)設(shè)計、實(shí)施和維護(hù)的過程中,數(shù)據(jù)倉庫系統(tǒng)的性能都是一個不可忽視的問題。尤其是在運(yùn)行期間,要密切關(guān)注應(yīng)用對系統(tǒng)資源的消耗情況,針對應(yīng)用的特點(diǎn)及時對系統(tǒng)進(jìn)行調(diào)整,包括調(diào)整數(shù)據(jù)庫參數(shù)、數(shù)據(jù)分片放置、創(chuàng)建特殊索引乃至提高系統(tǒng)配置等。
|
應(yīng)用與需求是相互促進(jìn)、不斷發(fā)展的,隨著信息系統(tǒng)建成運(yùn)行,用戶在對系統(tǒng)了解不斷加深的過程中,也會對系統(tǒng)提出更新更高的要求。如何在最小投入的前提下滿足用戶的需求,也是一個值得注意和潛心研究的問題。首先要盡可能挖掘現(xiàn)有系統(tǒng)的潛力,其次考慮,對主題的增加或可在現(xiàn)有系統(tǒng)上增加少量指標(biāo)就可解決的需求,對系統(tǒng)進(jìn)行適當(dāng)調(diào)整,最后才考慮對系統(tǒng)進(jìn)行重構(gòu),盡可能減小系統(tǒng)建設(shè)中的投入。
|
按照上述方法實(shí)現(xiàn)的應(yīng)用中,主要完成了報表的生成和日常業(yè)務(wù)的分析,這并不能給企業(yè)帶來真正的效益,也遠(yuǎn)遠(yuǎn)沒有發(fā)揮出數(shù)據(jù)倉庫的應(yīng)用價值。隨著應(yīng)用的深入,可以由企業(yè)的技術(shù)人員與業(yè)務(wù)人員緊密配合,規(guī)劃出對企業(yè)有實(shí)際價值的應(yīng)用模型,并根據(jù)實(shí)際業(yè)務(wù)的發(fā)展不斷調(diào)整模型自身的參數(shù),以期找出企業(yè)運(yùn)作過程中的規(guī)律,即在數(shù)據(jù)倉庫上進(jìn)行數(shù)據(jù)挖掘,構(gòu)建DSS系統(tǒng),這樣才能充分體現(xiàn)構(gòu)建數(shù)據(jù)倉庫的意義,從而最終為企業(yè)帶來效益。
|
盡管數(shù)據(jù)倉庫技術(shù)還需要不斷發(fā)展、完善,但只要企業(yè)能認(rèn)識到信息分析的重要性,業(yè)務(wù)人員和技術(shù)人員能真正配合起來,相信不久的將來會有更多的實(shí)用成果出現(xiàn)。
|
如何構(gòu)建銀行數(shù)據(jù)倉庫
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061
微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元