10:1),高效查詢主要依賴特殊設(shè)計(jì)的存儲結(jié)構(gòu)對查詢的優(yōu)化,但這里優(yōu)化的效果還取決于數(shù)據(jù)庫結(jié)構(gòu)和查詢語句的設(shè)計(jì)。2.高數(shù)據(jù)壓縮比,號稱一般能夠達(dá)到10:1以上的數(shù)據(jù)壓縮率" />

日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

INFOBRIGHT 數(shù)據(jù)倉庫

系統(tǒng) 1941 0

最近有部分工作涉及到了 ?Infobright 數(shù)據(jù)倉庫 ,就瀏覽了一些相關(guān)的資料,感覺很受啟發(fā)。下面寫一些感想,如有謬誤,還請指正。

簡單的來講,Infobright 主要有下面的一些優(yōu)點(diǎn):

1. TB 級的數(shù)據(jù)存儲和高效查詢。大數(shù)據(jù)量存儲主要依賴自己提供的高速數(shù)據(jù)加載工具(百G/小時)和高數(shù)據(jù)壓縮比(>10:1),高效查詢主要依賴特殊設(shè)計(jì)的存儲結(jié)構(gòu)對查詢的優(yōu)化,但這里優(yōu)化的效果還取決于數(shù)據(jù)庫結(jié)構(gòu)和查詢語句的設(shè)計(jì)。

2. 高數(shù)據(jù)壓縮比,號稱一般能夠達(dá)到 10:1 以上的數(shù)據(jù)壓縮率。高數(shù)據(jù)壓縮比主要依賴列式存儲和 patent-pending 的靈活壓縮算法。

3. 與主要 BI 分析工具的兼容性。兼容性這點(diǎn)主要依賴與 MySQL 的集成,作為 MySQL 的存儲引擎自然地能夠保證與 BI 分析工具的兼容。

除了上面的優(yōu)點(diǎn)外,它也有一些限制:

1. 不支持?jǐn)?shù)據(jù)更新。這使對數(shù)據(jù)的修改變得很困難,這樣就限制了它作為實(shí)時數(shù)據(jù)服務(wù)的數(shù)據(jù)倉庫來使用。用戶要么忍受數(shù)據(jù)的非實(shí)時或非精確,這樣對最(較)新數(shù)據(jù)的分析準(zhǔn)確性就降低了許多;要么將它作為歷史庫來使用,帶來的問題是實(shí)時庫用什么?很多用戶選擇數(shù)據(jù)倉庫系統(tǒng),不是因?yàn)榇鎯臻g不夠,而是數(shù)據(jù)加載性能和查詢性能無法滿足要求。

2. 不支持高并發(fā)。雖然單庫 10 多個并發(fā)對一般的應(yīng)用來說也足夠了,但較低的機(jī)器利用率對投資者來說總是一件不爽的事情,特別是在并發(fā)小請求較多的情況下。

3. 沒有提供主從備份和橫向擴(kuò)展的功能。如果沒有主從備份,想做備份的話,也可以主從同時加載數(shù)據(jù),但只能校驗(yàn)最終的數(shù)據(jù)一致性,這會使得從機(jī)在數(shù)據(jù)加載時停服務(wù)的時間較長;橫向擴(kuò)展方面,倒不是 Infobright 的錯,它本身就不是分布式的存儲系統(tǒng),但如果把它搞成一個分布式的系統(tǒng),應(yīng)該是一件比較好玩的事情。

在架構(gòu)方面,Infobright 給我展示了不少新想法,算是受益頗多吧。首先是按列存儲,然后把列數(shù)據(jù)切成小塊(Data Pack),進(jìn)行壓縮和統(tǒng)計(jì)(DPN, Data Pack Node),然后再對多塊數(shù)據(jù)之間進(jìn)行知識關(guān)聯(lián)(Knowledge Node),最后對整個表形成知識網(wǎng)格(Knowledge Grid)。雖然說 Infobright 沒有提供索引結(jié)構(gòu),但它 Knowledge Grid 中的 Numerical Histogram、Character Map 和 Pack-to-Pack 結(jié)構(gòu),怎么看都和? bitmap 索引 脫不了關(guān)系。只是它的組織形式不像傳統(tǒng)數(shù)據(jù)庫中的索引罷了。

其實(shí)我們在設(shè)計(jì)類似的分布式表格系統(tǒng)時,也可以實(shí)現(xiàn)類似于 Knowledge Grid 的結(jié)構(gòu)。這個結(jié)構(gòu)未必跟 Infobright 的一樣,但是如果在壓縮的基礎(chǔ)上,基于系統(tǒng)查詢模式(分布式系統(tǒng)的查詢模式一般相對簡單,復(fù)雜的也做不來),存儲一些輔助的塊統(tǒng)計(jì)信息以及塊之間的關(guān)聯(lián)信息,對于減少查詢的資源消耗,提高查詢效率會非常有幫助,這也正好是針對分布式表格系統(tǒng)很難建立索引這一缺點(diǎn)的彌補(bǔ)。

參考鏈接:

這篇文章 對 Infobright 及其安裝方法進(jìn)行了基本介紹,最后的一個查詢速度對比有些夸張(105:1),我覺得這可能跟查詢條件正好能匹配上 Knowledge Grid 中的信息所致; 這個博客 很有趣,從 2010 年 3 月 8 日到 5 月 8 日之間的文章全是? Infobright ?相關(guān)的,寫的還是挺詳細(xì)的; Brighthouse: An Analytic DataWarehouse for Ad-hoc Queries ?是一篇相關(guān)的 08 年 VLDB paper;此外官網(wǎng)上的白皮書不能直接下載,但在搜索引擎中能搜到一些。

?

轉(zhuǎn)自: http://blog.solrex.org/articles/infobright-data-warehouse.html

INFOBRIGHT 數(shù)據(jù)倉庫


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦?。。?/p>

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 辉南县| 页游| 固原市| 许昌市| 汉寿县| 黄浦区| 吉木乃县| 岢岚县| 类乌齐县| 车致| 荃湾区| 温泉县| 张北县| 新源县| 河池市| 濮阳市| 延安市| 宜川县| 呼和浩特市| 镇坪县| 灵石县| 故城县| 漠河县| 邹平县| 雷山县| 开江县| 普宁市| 武功县| 自贡市| 新田县| 安吉县| 朝阳市| 夹江县| 洛浦县| 红原县| 若羌县| 延长县| 高台县| 康保县| 台南市| 江陵县|