在過去幾十年來,數(shù)據(jù)管理和商業(yè)智能已然成為了企業(yè)價值創(chuàng)造的核心。那么,就不妨來閱讀一下本文所介紹的Computer Weekly是如何跟蹤數(shù)據(jù)管理所為企業(yè)組織帶來的相關(guān)承諾和磨難吧。
在過去的半個世紀中,數(shù)據(jù)管理已經(jīng)成為大部分IT商業(yè)價值的助產(chǎn)師。
在大約二十年前的1996年11月7日,當Nicholas Enticknap撰文以紀念 Computer Weekly創(chuàng)刊30周年時,他寫道:“20世紀90年代以來,IT為企業(yè)所提供的競爭優(yōu)勢越來越明顯,而這也導(dǎo)致了數(shù)據(jù)挖掘和數(shù)據(jù)倉庫應(yīng)用程序的興起。
“這同時還導(dǎo)致了能夠使得您企業(yè)組織所擁有的數(shù)據(jù)和應(yīng)用程序方面的優(yōu)勢能夠為別人所用的一大升值,包括為客戶、供應(yīng)商和中介機構(gòu)(如經(jīng)紀公司)所用。”
二十年后,還是在這一IT大背景下,數(shù)據(jù)管理、商業(yè)智能和數(shù)據(jù)分析仍然有著特殊使命。Enticknap繼續(xù)評論其是“自20世紀90年代以來,所推動的第二次重大革命:基于互聯(lián)網(wǎng)計算的興起。”
而在更早十年的1986年7月3日所發(fā)行的Computer Weekly報刊上,同一作者也曾談到了類似的主題,在一系列關(guān)于當時所謂的“第五次革命”的計算相關(guān)的介紹文章中,涉及到人工智能(AI):“我們即將看到新的應(yīng)用程序被陸續(xù)推出,旨在將數(shù)據(jù)轉(zhuǎn)化為信息,如提供決策支持和專家系統(tǒng)。”
從第一代到第四代的計算,無論它們之間具體區(qū)別的細節(jié)是怎樣的,都“遵循了由約翰·馮諾依曼(John vonNeumann)和他的同事們在1944年所首次提出的同樣的基本計算機體系結(jié)構(gòu)”,Enticknap寫道,彼時一臺計算機還是“一臺超級強大的計算器時,而電子仍處于其起步階段。”
而一大方面的新的典范,其中還包括了用戶友好的計算機,則很好的解決了“如何充分利用在數(shù)據(jù)領(lǐng)域的大規(guī)模投資的問題。”
關(guān)系數(shù)據(jù)庫模型和語言
Enticknap于1996年寫道,到了20世紀70年代,我們已經(jīng)看到,事務(wù)處理數(shù)據(jù)庫的建立、而微型計算機也已經(jīng)作為一種商業(yè)工具。同時,我們還看到數(shù)據(jù)庫管理系統(tǒng)和跨多臺微型計算機的分布式處理的推出,而不再是集中于單一一臺大型主機。
到那個時候,關(guān)系數(shù)據(jù)庫模型打破了數(shù)據(jù)存儲和應(yīng)用程序之間的依賴關(guān)系,已成為了眾所周知的事情。其已經(jīng)由供職于IBM、牛津大學(xué)畢業(yè)的數(shù)學(xué)家英國人Tedd Codd在1970發(fā)表了一篇論文《A Relational Model of Data for Large Shared Data Banks(大型共享數(shù)據(jù)庫的關(guān)系數(shù)據(jù)模型)》從理論上證明成立了。
智能業(yè)務(wù)策略分析師兼顧問邁克·弗格森為Ted Codd及其合作者和同事們工作,而劍橋數(shù)學(xué)家Chris Date則在上世紀80年代末期則為他們工作。
弗格森很驚訝的發(fā)現(xiàn),IBM花了如此長的時間——大約11年的時間——才將Codd發(fā)明的關(guān)系模型轉(zhuǎn)變?yōu)閿?shù)據(jù)庫產(chǎn)品。到了1978年,拉里·埃里森和他的Oracle數(shù)據(jù)庫團隊彌補了這一差距。而Oracle目前仍然是企業(yè)數(shù)據(jù)庫領(lǐng)域的巨頭。
IBM也是結(jié)構(gòu)化查詢語言(SQL)的滋生地,其是由 Donald Chamberlin和Raymond Boyce在上世紀70年代中期所發(fā)明的,而且該語言目前仍然是最被廣泛使用的數(shù)據(jù)庫語言。
SQL是一種實現(xiàn)關(guān)系模型的語言。弗格森回憶了Codd和Date在涉及距離原始概念的偏差時的不滿。盡管如此,借助SQL,關(guān)系數(shù)據(jù)庫——如Oracle的數(shù)據(jù)庫、以及IBM的DB2、微軟的SQL Server、現(xiàn)在由SAP所擁有的Sybase DB,已經(jīng)發(fā)展壯大。
事實上,SQL在數(shù)據(jù)庫領(lǐng)域的持久存在已十分顯著。盡管在過去的10年里,有Hadoop堆棧、NoSQL數(shù)據(jù)庫、Apache Spark框架這樣的所謂的大數(shù)據(jù)技術(shù)的興起,但SQL已多次作為數(shù)據(jù)查詢的超級語言回歸了。
數(shù)據(jù)倉庫和商業(yè)智能
在紀念Computer Weekly創(chuàng)刊三十周年的???,有一個關(guān)于數(shù)據(jù)倉庫如何在1996年嚴重辜負了關(guān)于其炒作的故事。
“彼時,盡管圍繞著這一概念有著各種各樣的炒作,但在英國排名前1000名的企業(yè)組織中,僅僅只有不到10%的企業(yè)組織正在部署實施數(shù)據(jù)倉庫。”據(jù)Computer Weekly的報道。而在今天,我們又
在基于大數(shù)據(jù)Hadoop的“數(shù)據(jù)湖”的領(lǐng)域,看到發(fā)生了類似的故事。
數(shù)據(jù)倉庫體現(xiàn)了以分析為目的的數(shù)據(jù)庫技術(shù)的演變,并主張為一家企業(yè)組織所有的業(yè)務(wù)系統(tǒng)數(shù)據(jù)建立集中的存儲庫。
這個想法主要是獲取事務(wù)性數(shù)據(jù)庫的數(shù)據(jù),并將其加載到數(shù)據(jù)倉庫中進行分析。這樣一個對于生成數(shù)據(jù)的提取、轉(zhuǎn)換和加載(ETL)的技術(shù),遷移數(shù)據(jù),然后利用商業(yè)智能(BI)軟件將編寫SQL查詢的痛苦移除,來寫報告和分析。
這套技術(shù)現(xiàn)在經(jīng)常被用于處理過于緩慢和過時的任務(wù),以及過于依賴于企業(yè)內(nèi)部IT的任務(wù)。其在今天經(jīng)常被用來與新一波的現(xiàn)代數(shù)據(jù)發(fā)現(xiàn)和可視化軟件進行對比,包括諸如Qlik、Tableau和similar ilk,以避免IT作為一種功能。
然而,在上世紀90年代中后期和2000年代早期,弗格森非常希望重申以數(shù)據(jù)倉庫、ETL和商業(yè)智能軟件這三種技術(shù)為代表的生產(chǎn)力的基本的階躍變化。
“彼時,數(shù)據(jù)倉庫絕對需要瞄準BI市場。截至那時,我們所有的都是那些綠色和白色打印的紙張,吐出事務(wù)型數(shù)據(jù)庫系統(tǒng),以進行報告。”他說。
弗格森說,他曾在那個時候供職于Teradata公司,而該公司在彼時在其大規(guī)模并行處理數(shù)據(jù)庫“非常具有先鋒性”,并為以報告為目的進行了優(yōu)化。
再加上當時興起的ETL技術(shù)(特別是興起于現(xiàn)在的Informatica公司)和BI工具——包括Business Objects公司、Cognos公司以及MicroStrategy公司,等等——數(shù)據(jù)倉庫/商業(yè)智能,標志著“生產(chǎn)力的分水嶺”,弗格森說。
他說:“早期實施了這些技術(shù)的10%的企業(yè)組織,都是由那些已經(jīng)看到了洞察力的價值的管理者們所領(lǐng)導(dǎo)的”。
這種洞察力也是從SAS和(現(xiàn)在的IBM的SPSS預(yù)測)等數(shù)據(jù)分析技術(shù)的使用而產(chǎn)生的,其較少的是關(guān)于BI報告,而更多的則是關(guān)于用于預(yù)測的統(tǒng)計模型的建立。
數(shù)據(jù)倉庫開發(fā)與來自SAP公司、Siebel的大企業(yè)資源規(guī)劃(ERP)和客戶關(guān)系管理(CRM)軟件包的興起并行發(fā)展。
近年來,SAP公司已經(jīng)開始專攻內(nèi)存、列式數(shù)據(jù)庫(columnar database)平臺Hana,據(jù)說這是要把分析和事務(wù)數(shù)據(jù)庫模型整合在一起。
正如我們已經(jīng)在Computer Weekly的報道中看到,商業(yè)軟件的歷史將是這一個主題的姊妹篇。
在弗格森看來,我們在這里可以說,ETL供應(yīng)商們正面臨“從他們的業(yè)務(wù)應(yīng)用程序中獲取數(shù)據(jù),而數(shù)據(jù)模型并未得到很好的理解的壓力”,以及從上世紀90年代及之后的關(guān)系數(shù)據(jù)庫管理系統(tǒng)獲取數(shù)據(jù)的壓力。
網(wǎng)絡(luò)的到來
正是由于這些技術(shù)對于數(shù)據(jù)庫制造商和數(shù)據(jù)庫管理員并不復(fù)雜,另一個英國人蒂姆·伯納斯·李在1994年發(fā)明了萬維網(wǎng)。而Computer Weekly也從90年代中期開始建立其網(wǎng)站。
在線事務(wù)處理(OLTP)數(shù)據(jù)庫的特殊點在于,他們從來都不是為了服務(wù)于在網(wǎng)絡(luò)上的大量并發(fā)用戶而建立的,更不用說那些來自手機等移動設(shè)備的網(wǎng)絡(luò)訪問了,尤其是隨著現(xiàn)如今的智能手機的興起。
在1996年3月28日出版的Computer Weekly上,Julia Vowler報道了關(guān)系數(shù)據(jù)庫供應(yīng)商和對象數(shù)據(jù)庫供應(yīng)商公司(如Informix公司)之間的網(wǎng)絡(luò)戰(zhàn)爭。彼時,Informix公司的技術(shù)被公認為更適合于支持文本、音頻、視頻、HTML和Java;以及連接數(shù)據(jù)庫到Web服務(wù)器。
據(jù)報道,Informix公司的客戶包括摩根斯坦利、雷曼兄弟和美國宇航局。
而到了今天,誰記得面向?qū)ο蟮臄?shù)據(jù)庫管理系統(tǒng)公司呢?當然,這方面的技術(shù)仍然在不斷發(fā)展,面向?qū)ο蟮木幊陶Z言包括諸如C#、Python和Perl、Ruby仍在繼續(xù)蓬勃發(fā)展。
但是,那些試圖取代甲骨文和其它關(guān)系數(shù)據(jù)庫供應(yīng)廠商的企業(yè)基本上都被業(yè)內(nèi)其他企業(yè)所取代了——Informix公司在2001年由IBM收購。
大數(shù)據(jù)的興起
然而,關(guān)系模型的霸權(quán)最近遭到了來自NoSQL(不僅僅是SQL,NotOnlySQL)公司熱潮高漲的質(zhì)疑和挑戰(zhàn),其往往是基于開源技術(shù)的,但也并不全是基于開源技術(shù)的。MarkLogic便是一款非開源的NoSQL技術(shù)。但是,我們現(xiàn)在已經(jīng)有了Basho( Rick技術(shù))、Couchbase、DataStax公司(Cassandra數(shù)據(jù)庫)和MongoDB。
弗格森將這個群體總結(jié)為提供了非常具體的使用案例,通常與電子商務(wù)或其他網(wǎng)站操作運營事務(wù)相關(guān)。
在2014年,Teradata公司的首席技術(shù)官Stephen Brobst在接受Computer Weeky 的采訪時表示,NoSQL的供應(yīng)商們最終會走上對象數(shù)據(jù)庫供應(yīng)商們的老路。
“在硅谷,SQL和NoSQL的偏執(zhí)狂之間將會有一場宗教似的戰(zhàn)爭。而最終,理性會贏得勝利。在SQL中執(zhí)行一切的工作任務(wù)絕不是一個好主意,而所有工作任務(wù)都不在SQL中執(zhí)行也不是一個好主意。”Brobst說。
“而關(guān)于NoSQL,Mongo在為Java程序員們增強易用性方面確實做得相當不錯。而Cassandra則是很好的網(wǎng)絡(luò)日志。但我相信,未來所將會發(fā)生的事情很可能是20世紀90年代對象數(shù)據(jù)庫所發(fā)生事情的重演。”他說。
“當時的呼聲是’關(guān)系模型已死',其已經(jīng)統(tǒng)治有20年了”。但是,從本質(zhì)上講,關(guān)系數(shù)據(jù)庫工程師們挖走了所有的好點子,并帶給了對象數(shù)據(jù)庫,扼殺了那些純粹的對象數(shù)據(jù)庫的工程師們。”他說。
諸如此類的任何事情都可以證明這種預(yù)測的準確性,而較新的數(shù)據(jù)庫供應(yīng)商所興起的基礎(chǔ)與已經(jīng)興起的Hadoop系列技術(shù)的基礎(chǔ)則是一樣的——大數(shù)據(jù)。
大數(shù)據(jù)是我們現(xiàn)如今所經(jīng)常到處流傳的一大術(shù)語,但可以說包括了從社交媒體數(shù)據(jù)、機器生成的數(shù)據(jù)和其他不符合行和列的關(guān)系數(shù)據(jù)庫技術(shù)的各種數(shù)據(jù)類型。
自從戰(zhàn)略公司麥肯錫在其于2011年5月發(fā)布的報告中將大數(shù)據(jù)這一術(shù)語描述為:“創(chuàng)新、市場競爭和生產(chǎn)力的下一個前沿領(lǐng)域,企業(yè)CXO級別的企業(yè)領(lǐng)導(dǎo)人將因此而被自己的IT部門卡住咽喉”以來,“我們的大數(shù)據(jù)在哪里?我們怎樣才能從中賺錢呢?”一直是企業(yè)高層執(zhí)行人員所魂牽夢繞的問題。有些人甚至可能問:“Hadoop是什么?”
Hadoop技術(shù),或者,更準確地說,Hadoop分布式文件系統(tǒng)——是一款開源版本的并行編程框架,稱為MapReduce,最初是由谷歌開發(fā)的。
其簡化了分布在商品硬件上的跨大型數(shù)據(jù)集的數(shù)據(jù)處理,是由Doug Cutting和Mike Cafarella十年前在雅虎公司開發(fā)的。Cutting現(xiàn)在是Cloudera的高管,該公司是Hadoop的分銷商公司之一,還包括Hortonworks和MapR。
MapReduce本身即將被由DataBricks公司商品化的Apache Spark所取代(或補充)。Spark是另一種并行處理架構(gòu),但它并不局限于Hadoop技術(shù),并且可以在關(guān)系數(shù)據(jù)存儲以及NoSQL數(shù)據(jù)庫運行。其也不是batchy,而MapReduce則是的。
數(shù)據(jù)管理的未來
今天,數(shù)據(jù)管理是一個令人興奮的、快速發(fā)展的領(lǐng)域。而根據(jù)Computer Weekly的報道,在過去的50年——尤其是在過去20年間,隨著網(wǎng)絡(luò)和大數(shù)據(jù)的興起,我們對此已經(jīng)討論了太多。
我們還討論過太多關(guān)于主數(shù)據(jù)管理(MDM)、共享數(shù)據(jù)的安全管理等議題,這些通常是關(guān)于真實的單一版本;而MDM的基礎(chǔ)——數(shù)據(jù)管理,總是會回來困擾數(shù)據(jù)專業(yè)人士和數(shù)據(jù)庫供應(yīng)商。
而弗格森的觀點則是,“企業(yè)IT現(xiàn)在比任何時候都需要更多的工具,以便降低復(fù)雜性,而CIO們也不再需要花大錢來支付數(shù)據(jù)科學(xué)與數(shù)據(jù)工程方面的技能了。在某種程度上,這是回到了Codd的時代。我們需要數(shù)據(jù)的獨立性。那么,數(shù)據(jù)存儲被在哪里有什么關(guān)系?工具和應(yīng)用程序不應(yīng)該知道這一點。”
無論技術(shù)將如何打造未來的數(shù)據(jù)管理架構(gòu)的形態(tài),該領(lǐng)域只能發(fā)展成為商業(yè)價值的主要承擔者之一。其來自IT,并為了企業(yè)組織的發(fā)展及其未來。而更重要的是,我們這些為此而記錄和撰寫文章的人將有大量的工作要做。
文章來源:機房專用空調(diào) http://www.yuanchangqo.cn
ot articles