許多數(shù)據(jù)中心面對(duì)的最大應(yīng)戰(zhàn)對(duì)錯(cuò)結(jié)構(gòu)化數(shù)據(jù)的極大添加。雖然結(jié)構(gòu)化數(shù)據(jù)在曩昔10至20年間有所添加,但在曩昔幾年中,非結(jié)構(gòu)化數(shù)據(jù)的來源以及人們運(yùn)用所述數(shù)據(jù)的才能現(xiàn)已明顯添加。非結(jié)構(gòu)化數(shù)據(jù)辦理面對(duì)的應(yīng)戰(zhàn)之一是,一般很難斷定何時(shí)刪去它。
例如,從以往的管帳年度挑選一切財(cái)政記載,將其歸檔并從主存儲(chǔ)體系中刪去對(duì)錯(cuò)常簡(jiǎn)略的。用非結(jié)構(gòu)化數(shù)據(jù)來做這個(gè)并不是那么簡(jiǎn)略。管帳所面對(duì)的其間一個(gè)應(yīng)戰(zhàn)對(duì)錯(cuò)結(jié)構(gòu)化數(shù)據(jù)一般由無數(shù)人具有的,而不是一個(gè)一致的應(yīng)用程序。
安排的事務(wù)環(huán)境中可能存在數(shù)千個(gè)用戶和數(shù)百個(gè)應(yīng)用程序,用于創(chuàng)立非結(jié)構(gòu)化數(shù)據(jù),而且當(dāng)一條非結(jié)構(gòu)化數(shù)據(jù)變得有用時(shí),一般對(duì)此并不清楚,因而沒有人想要?jiǎng)h去任何內(nèi)容。缺少詳細(xì)的問責(zé)制導(dǎo)致大部分?jǐn)?shù)據(jù)處于非活動(dòng)狀況,而這與數(shù)據(jù)占用空間無關(guān)。只要安排依托數(shù)據(jù)創(chuàng)立者來辨認(rèn)和搬遷那些陳腐的和未運(yùn)用的數(shù)據(jù),那么非活動(dòng)數(shù)據(jù)將始終是一個(gè)問題。
當(dāng)人們查看備份體系的問題,主存儲(chǔ)體系日益脹大的問題就會(huì)變得愈加令人重視。由于大多數(shù)備份體系都處理一切非結(jié)構(gòu)化數(shù)據(jù),因而都會(huì)運(yùn)用相同的戰(zhàn)略來備份非常重要的數(shù)據(jù)和非活動(dòng)數(shù)據(jù)。由于數(shù)據(jù)是混合的,所以底子無法處理一切數(shù)據(jù)。許多人每周進(jìn)行全面?zhèn)浞?,然后進(jìn)行每日增量備份,保存至少六個(gè)月,或許可能是一年或更長時(shí)刻。
如果保存至少90天的每周完好備份,就會(huì)看到12份無人重視的數(shù)據(jù)副本。如果存儲(chǔ)該數(shù)據(jù)的現(xiàn)場(chǎng)和非現(xiàn)場(chǎng)副本,就會(huì)查看到該數(shù)據(jù)的24個(gè)副本,其間大部分對(duì)錯(cuò)活動(dòng)的。關(guān)于一個(gè)2TB的安排數(shù)據(jù)來說,這將會(huì)存儲(chǔ)48TB的數(shù)據(jù),當(dāng)然許多數(shù)據(jù)是可辦理的。而這種存儲(chǔ)的工作數(shù)據(jù),48TB數(shù)據(jù)大約選用十幾個(gè)磁帶介質(zhì)或硬盤驅(qū)動(dòng)器進(jìn)行存儲(chǔ)。但關(guān)于1PB客戶來說,每年24,000TB的數(shù)據(jù)或大約選用6000個(gè)存儲(chǔ)介質(zhì)進(jìn)行存儲(chǔ)。
存儲(chǔ)在備份體系上的非活動(dòng)數(shù)據(jù)的額定副本會(huì)發(fā)生許多不用要的結(jié)果。如果安排正在運(yùn)用磁盤存儲(chǔ),則此數(shù)據(jù)的存儲(chǔ)和復(fù)制具有與之相關(guān)的本錢。如果安排的存儲(chǔ)不運(yùn)用重復(fù)數(shù)據(jù)刪去,那么存儲(chǔ)這些額定的數(shù)據(jù)副本的本錢可能是個(gè)天文數(shù)字。如果安排運(yùn)用重復(fù)數(shù)據(jù)刪去技能,這些本錢將會(huì)有點(diǎn)混雜。雖然安排的重復(fù)數(shù)據(jù)刪去存儲(chǔ)體系能夠在存儲(chǔ)一個(gè)副本的空間中存儲(chǔ)20個(gè)副本,可是這些會(huì)收取必定費(fèi)用,此外安排還需為額定的存儲(chǔ)空間付費(fèi),只是以不同的辦法支付。有些人這么說:重復(fù)數(shù)據(jù)刪去體系使1TB存儲(chǔ)看起來像20TB的存儲(chǔ)空間,可是它們只收取10TB的存儲(chǔ)空間。這意味著他們現(xiàn)已弄清楚怎么收取10TB的存儲(chǔ)空間的費(fèi)用,而供給的卻是1TB的存儲(chǔ)空間。
在備份體系中運(yùn)用重復(fù)數(shù)據(jù)刪去的大多數(shù)安排也在方程式的方針端履行,這意味著對(duì)非活動(dòng)數(shù)據(jù)的重復(fù)完全備份仍會(huì)在備份客戶端發(fā)生問題。完全備份對(duì)正在備份的體系和發(fā)送備份的網(wǎng)絡(luò)具有功能方面影響,因而,重復(fù)的非活動(dòng)數(shù)據(jù)的完全備份會(huì)使安排的花費(fèi)更多,由于需要購買更強(qiáng)壯的服務(wù)器和更快的網(wǎng)絡(luò)。
在數(shù)據(jù)復(fù)原過程中也會(huì)呈現(xiàn)備份非活動(dòng)數(shù)據(jù)的應(yīng)戰(zhàn)??紤]一個(gè)具有PB級(jí)數(shù)據(jù)的數(shù)據(jù)中心的場(chǎng)景,其間900TB數(shù)據(jù)是活動(dòng)的。康復(fù)1PB的數(shù)據(jù)是一項(xiàng)嚴(yán)重的使命,需要恰當(dāng)長的時(shí)刻?;孟胍幌拢绻恍枰祻?fù)安排實(shí)際運(yùn)用的100TB數(shù)據(jù),那么這種康復(fù)是不是要快得多?
用戶從不刪去任何東西所帶來的另一個(gè)應(yīng)戰(zhàn)是,確實(shí)正需要的時(shí)分很難找到任何東西。這使一切的存儲(chǔ)數(shù)據(jù)就是像屋子里放滿雜物的抽屜,很難找到想要找的東西。就會(huì)發(fā)現(xiàn)不再運(yùn)用的手機(jī)充電器,回形針,舊電池,發(fā)夾等雜言無不盡,什么都有,但就沒有所要找的東西。主存儲(chǔ)體系也選用這種相同的辦法,因而當(dāng)填充大多數(shù)不活動(dòng)的數(shù)據(jù)時(shí),很難找到活動(dòng)的數(shù)據(jù)文件。
此外,即便一個(gè)用戶在筆記本電腦中企圖查找文件也會(huì)存在這個(gè)問題?;孟胍幌拢?dāng)人們議論數(shù)千個(gè)用戶和PB級(jí)數(shù)據(jù)時(shí),這個(gè)問題是多么的巨大。這能夠?qū)е轮匾奈募G掉,使它們質(zhì)上毫無價(jià)值。結(jié)果是用戶將重復(fù)他們的盡力,偏重新創(chuàng)立文件,因而這讓非結(jié)構(gòu)化數(shù)據(jù)問題的添加變得愈加糟糕。
具有PB級(jí)數(shù)據(jù)的規(guī)劃更大的企業(yè)同樣也存在這樣的問題,他們一般面對(duì)不同的用戶在多個(gè)方位創(chuàng)立和運(yùn)用不同的文件中的問題。他們可能期望能夠分享一些數(shù)據(jù),可是關(guān)所以PB級(jí)數(shù)據(jù)來說,這是恰當(dāng)困難的。這也加重了“廢物抽屜”問題。在廢物抽屜里找到什么東西很難,但如果不斷定在哪個(gè)廢物抽屜來找時(shí),那就更難了。
供認(rèn)寬和決非結(jié)構(gòu)化數(shù)據(jù)問題
處理非結(jié)構(gòu)化數(shù)據(jù)問題的僅有辦法就是供認(rèn)它的存在。供認(rèn)在大環(huán)境中很難找到文件,乃至更難同享。供認(rèn)核算、網(wǎng)絡(luò)和存儲(chǔ)資源的很大一部分用于存儲(chǔ)、復(fù)制和備份非活動(dòng)數(shù)據(jù)。
處理這些問題的一個(gè)辦法是創(chuàng)立一個(gè)大局一致的文件體系,將一切上述問題考慮在內(nèi)。這并不能處理用戶創(chuàng)立數(shù)百萬個(gè)文件并將它們永久留在那里的問題,但它至少把問題放在一個(gè)能夠會(huì)集辦理和處理問題的維護(hù)傘下。呈現(xiàn)一次問題,就處理一次,而不是在企業(yè)中多次處理這些問題。
是撤銷存檔的時(shí)分嗎?
規(guī)劃這么大的文件體系應(yīng)該經(jīng)過高級(jí)元數(shù)據(jù)進(jìn)行集成查找。用戶能夠經(jīng)過許多不同的元數(shù)據(jù)輕松地查找,以便找到他們正在處理的文件。他們當(dāng)然會(huì)繼續(xù)具有一般運(yùn)用的文件體系語義,使它們能夠創(chuàng)立目錄或子目錄來協(xié)助他們收拾他們的文件。具有聯(lián)合查找的單個(gè)文件體系還將答應(yīng)他們查找其他人正在處理與他們感興趣的元數(shù)據(jù)相匹配的文件。
最重要的是,為處理這個(gè)問題而規(guī)劃的文件體系有必要了解活動(dòng)和非活動(dòng)的數(shù)據(jù),它有必要以不同的辦法處理。最明顯的做法是自動(dòng)辨認(rèn)并將非活動(dòng)數(shù)據(jù)搬遷到本錢更低的自我維護(hù)目標(biāo)存儲(chǔ)。這將處理上述一些問題,包含在主存儲(chǔ)和備份存儲(chǔ)中的空間糟蹋。了解活動(dòng)和非活動(dòng)數(shù)據(jù)之間的差異的文件體系也有助于更簡(jiǎn)略地查找文件,由于這是能夠用于查找的元數(shù)據(jù)之一。
一個(gè)單一的大局文件體系也能夠協(xié)助世界各地的用戶同享數(shù)據(jù)。多個(gè)辦公室的用戶能夠查找同一個(gè)大局文件體系,找到他們正在尋覓的數(shù)據(jù)類型,并當(dāng)即訪問它,如果他們具有恰當(dāng)?shù)臋?quán)限的話。由于大局文件體系了解非活動(dòng)數(shù)據(jù)的概念,所以查找(如果用戶需要的話)也能夠包含非活動(dòng)數(shù)據(jù)。
將非活動(dòng)數(shù)據(jù)搬遷到本錢更低的目標(biāo)存儲(chǔ)的簡(jiǎn)略行為也釋放了備份體系的壓力。它使備份和康復(fù)更快,由于它們不用處理非活動(dòng)數(shù)據(jù),因而也節(jié)省了許多的存儲(chǔ)空間。有些人以為存儲(chǔ)在自維護(hù)目標(biāo)存儲(chǔ)中的數(shù)據(jù)底子不需要備份。如果用戶決議備份,能夠這樣做,以辨認(rèn)其性質(zhì),并在備份體系中存儲(chǔ)少得多的非活動(dòng)數(shù)據(jù)副本。
這個(gè)問題現(xiàn)已存在多年。企業(yè)好像關(guān)于非結(jié)構(gòu)化數(shù)據(jù)的渴望是永無止境的,IT應(yīng)用程序開發(fā)人員正在開發(fā)利用非結(jié)構(gòu)化數(shù)據(jù)的新辦法,使得具有這樣的數(shù)據(jù)更具吸引力。非結(jié)構(gòu)化數(shù)據(jù)的添加不太可能很快消失,所以用戶最好的辦法就是處理問題。一個(gè)很好的辦法是選用一個(gè)大局文件體系,用于處理問題,這包含了解元數(shù)據(jù)以及將非活動(dòng)數(shù)據(jù)自動(dòng)搬遷到本錢較低的目標(biāo)存儲(chǔ)。
文章來源:機(jī)房專用空調(diào)www.yuanchangqo.cn
ot articles