大數據心得體會65848
時間:2021-04-09 07:47:47 來源:勤學考試網 本文已影響 人
大數據心得體會
早在2007年,人類制造的信息量有史以來第一次在理論上超過可用存儲空間總量,近幾年兩者的剪刀差越來越大。2010年,全球數字規模首次達到了“ZB”(1ZB=1024TB)級別。2012年,淘寶網每天在線商品數超過8億件。2013年底,中國手機網民超過6億戶。隨著互聯網、移動互聯網、傳感器、物聯網、社交網站、云計算等的興起,我們這個社會的幾乎所有方面都已數字化,產生了大量新型、實時的數據。無疑,我們已身處在大數據的海洋。
有兩個重要的趨勢使得目前的這個時代(大數據時代)與之前有顯著的差別:其一,社會生活的廣泛數字化,其產生數據的規模、復雜性及速度都已遠遠超過此前的任何時代;其二,人類的數據分析技術和工藝使得各機構、組織和企業能夠以從前無法達到的復雜度、速度和精準度從龐雜的數據中獲得史無前例的洞察力和預見性。
大數據是技術進步的產物,而其中的關鍵是云技術的進步。在云技術中,虛擬化技術乃最基本、最核心的組成部份。計算虛擬化、存儲虛擬化和網絡虛擬化技術,使得大數據在數據存儲、挖掘、分析和應用分享等方面不僅在技術上可行,在經濟上也可接受。
在人類文明史上,人類一直執著探索我們處的世界以及人類自身,一直試圖測量、計量這個世界以及人類自身,試圖找到隱藏其中的深刻關聯、運行規律及終極答案。大數據以其人類史上從未有過的龐大容量、極大的復雜性、快速的生產及經濟可得性,使人類第一次試圖從總體而非樣本,從混雜性而非精確性,從相關關系而非因果關系來測量、計量我們這個世界。人類的思維方式、行為方式及社會生活的諸多形態(當然包括商業活動)正在開始發生新的變化?;蛟S是一場革命性、顛覆性的變化。從這個意義上講,大數據不僅是一場技術運動,更是一次哲學創新。
1 大數據的概述
大數據的概念
大數據(Big Data)是指那些超過傳統數據庫系統處理能力的數據。它的數據規模和轉輸速度要求很高,或者其結構不適合原本的數據庫系統。為了獲取大數據中的價值,我們必須選擇另一種方式來處理它。
&
數據中隱藏著有價值的模式和信息,在以往需要相當的時間和成本才能提取這些信息。如沃爾瑪或谷歌這類領先企業都要付高昂的代價才能從大數據中挖掘信息。而當今的各種資源,如硬件、云架構和開源軟件使得大數據的處理更為方便和廉價。即使是在車庫中創業的公司也可以用較低的價格租用云服務時間了。
對于企業組織來講,大數據的價值體現在兩個方面:分析使用和二次開發。對大數據進行分析能揭示隱藏其中的信息,例如零售業中對門店銷售、地理和社會信息的分析能提升對客戶的理解。對大數據的二次開發則是那些成功的網絡公司的長項。例如Facebook通過結合大量用戶信息,定制出高度個性化的用戶體驗,并創造出一種新的廣告模式。這種通過大數據創造出新產品和服務的商業行為并非巧合,谷歌、雅虎、亞馬遜和Facebook,它們都是大數據時代的創新者。
大數據的三層關系
第一層關系:數據與機器的關系。大數據紀元剛開始,產業界碰到的第一個核心問題就是“大”的問題。做了幾十年的數據倉庫甚至海量并行處理的數據庫都不能處理那么大的數據,怎么辦需要范式切換。主要有三個方面,新型的數據與機器關系當中的第一條就是重新考慮架構與算法,重新考慮舍得,有舍才能得,天下沒有免費的午餐,所以必須要舍棄一些,得到一些新的。必須舍棄貴族化的高端小型機和UNIX服務器,得到平民化的更大量的X86服務器。通過這樣一種可橫向、可水平擴展服務器處理每兩年翻番的數據量的挑戰。第二個舍得是舍棄硬件的可靠性和可用性,得到軟件的可靠性和可用性。這也就是谷歌三大論文以及Hadoop的核心重點。第三個舍得是舍棄傳統數據庫的強一致性,獲得更放松一致性、可擴展架構,如NoSQL。第四個舍得是傳統算法強調非常嚴格的精確性,現在要放棄一些精確性,通過近似、采樣這種方式來獲得更好的擴展性。
最早大數據的處理范式是Mapreduce的批量處理,英特爾慢慢有其他的需求,實時的流處理、多迭代的處理、圖計算、即時查詢等等新的范式百花齊放,最后萬法歸宗。剛才王斌老師將講的SAP的HANA本身就是數據管理和分
析的融合,現在非常流行的Hadoop之后的SPARK,就是把前面的各種范式進行了融合。
存儲與內存的消長,大數據第一個要解決把數據存儲下來,后來發現要把它放到大的內存里進行處理,獲得實時性,接著在存儲和內存之間現在又出現了閃存,有閃存化甚至全閃存的存儲,也有閃存化的內存,把所有的計算在閃存里面處理,已經被微軟、Facebook等等大量使用。大家可以預期,兩年以后出現新的非易失性的閃存,它的速度可能要比閃存快幾百倍,和內存相似,這又會極大地顛覆數據與機器的關系。
第二層關系:數據與人的關系。主要是價值的覺醒,如果數據不能產生價值它可能是負面資產。數據怎么能夠給人帶來價值我們介紹一下它的價值維度,把它映射到二維的時空象限里,用六個關鍵詞來描述它。第一是“Volume”,兩個關鍵詞,小數據見微對個人進行刻劃,大數據知著能夠了解宏觀規律,它是空間概念,同時也是時間概念,數據剛剛產生的時候,它的個性化價值、見微的價值最大,而隨著時間的推移,它漸漸退化到只有集合價值。第二是Velocity,時間軸的原點是當下實時價值,副軸是過往,正軸是預測未來,如果知道知前后就能夠做到萬物的皆明。第三是Variety,多源異質的數據,能夠過濾噪聲、查漏補缺、去偽存真,就是辯訛。還有曉意,能夠從大量的非結構化數據中獲得語意,從而能夠使機器窺探人的思維境界,這六個價值維度怎么去實現主要是兩部分人,一是數據科學家要洞察數據,另外一個是終端用戶和領域專家要去解讀數據并利用數據。首先看洞察數據,數據科學,人和機器作用發生了消長,講個例子,機器學習大家覺得是機器的問題,其實人在里面起到很重要的作用,尤其是機器學習是模型加特征,而特征工程是一個人力工程,你要有經驗非常豐富的特征團隊去死磕特征,找出更好、更多的特征,才能夠使機器學習的效果更好。但是現在深度學習這些新技術出來,能夠用機器學習特征,能夠在大量非結構化數據中找到豐富的信息維度用特征表達出來,這遠遠超出了人的能力。大家知道黑客帝國描述了一個場景,人腦袋后面插一個插頭,給機器提供營養,我可能不會那么悲觀,但是像這樣的互動關系以一種更良性的方式出現了,現在人的一言一行、社交行為、金融行為都已經成為機器的養料、機器的數據,使得機器獲得更好的洞察。
>
終端用戶需要更好地、更傻瓜化的分析工具和可視化工具,兩年前我去參加大數據的會,基本上都是Hadoop和NoSQL現在大家參加大數據會可以看到清一色的分析工具和可視化工具。大數據跟各行各業的化學作用正在發生。如果馬化騰說“互聯網+”是互聯網與各行各業的加法效應,那么大數據將與各行各業產生乘法效應。
第三個關系,數據與數據的關系?,F在只有海面平的數據是搜索引擎可以檢索到,深海的數據可能是黑暗的數據,在政府、在企業里大家看不到。我們怎么辦呢必須讓數據發現數據。只有讓數據能夠發現數據、遇到數據,才能產生金風玉露一相逢、便勝卻人間無數的效果。這里有三個重要的觀念,需要法律、技術、經濟理論和實踐上配合。法律上要明確數據的權利,數據所有權,數據的隱私權,什么數據不能給你看;數據的許可權,什么數據是可以給你看的;數據的審計權,我給你看了以后,你是不是按照許可的范圍去看;數據的分紅權。數據像原油又不同于原油,原油用完了就沒有了,數據可以反復地產生價值,因此數據的擁有者應該得到分紅。我們要保證數據的開放、共享、交易。公共數據和部分科研數據要開放,開放過程中注意保護隱私。企業之間可以進行數據的點對點共享,最高境界是不丟失數據的所有權和隱私權的前提下共享,這里有多方安全計算的概念。1982年姚期智老先生提出了百萬富翁的窘境的問題,兩個百萬富翁他們想要比誰更富,但是誰都不愿意說出來自己都多少錢,在我們的數據共享當中要通過各種各樣的技術達到這樣的效果。還有數據交易,建立多邊多邊平臺來支持數據交易。
互聯網能發展起來經濟學理論和實踐是很重要的支撐,梅特卡夫定律決定了一個互聯網公司的價值,跟它用戶數的平方成正比,又比如說谷歌請最好的經濟學家,它的一個廣告業務的核心就是建立在一個非常先進的拍賣經濟學的模型基礎上。數據經濟也需要這樣一些基礎的理論,比如數據定價和信息定價不一樣,信息做一個咨詢報告5000美金賣給你,可以賣給所有人。但數據對不同的單位價值不一樣,可能我之毒藥是彼之蜜糖。另外估值,一個企業擁有大量的數據,是無形資產的一部分,對于企業的市場價值帶來了多大的增長。
大數據的四個特性
大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這也是一個描述性的定義,在對數據描述的基礎上加入了處理此類數據的一些特征,用這些特征來描述大數據。當前,較為統一的認識是大數據有四個基本特征: 數據規模大( Volume) ,數據種類多( Variety) ,數據要求處理速度快( Velocity) ,數據價值密度低( Value) ,即所謂的四V 特性。
數據規模大( Volume):企業面臨著數據量的大規模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產生數據。
數據種類多( Variety):一個普遍觀點認為,人們使用互聯網搜索是形成數據多樣性的主要原因,這一看法部分正確。然而,數據多樣性的增加主要是由于新型多結構數據,以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。
|
處理速度快( Velocity):高速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS Research關于數據創建速度的調查,據預測,到2020年全球將擁有220億部互聯網連接設備。
數據價值密度低( Value):大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,造成很難甚至無法使用傳統的應用軟件進行分析。傳統業務數據隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。目前,企業面臨的挑戰是處理并從各種形式呈現的復雜數據中挖掘價值。
大數據的三個特征
除了有四個特性之外,大數據時代的數據還呈現出其他三個特征。
第一個特征是數據類型繁多。包括網絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求.
第二個特征是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。
第三個特征是處理速度快,時效性要求高。這是大數據區分于傳統數據挖掘最顯著的特征。
,
2 大數據的技術與處理
大數據的技術
1.數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
2.數據存?。宏P系數據庫、NOSQL、SQL等。
3.基礎架構:云存儲、分布式文件存儲等。
4.數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
5.統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
?
6.數據挖掘:分類(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則
(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)。
7.模型預測:預測模型、機器學習、建模仿真。
8.結果呈現:云計算、標簽云、關系圖等。
大數據的處理
1.采集
大數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。
在大數據的采集過程中,其主要特點和挑戰是并發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們并發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。。
2.導入/預處理
雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。
3.統計/分析
統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的
需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。
4.挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。
:
3 大數據的應用
正如諸多文獻所談到的,大數據對許多行業的影響和沖擊已經呈現。例如,商零售、物流、醫藥、文化產業等。金融,作為現代經濟中樞,其實也已透出了大數據金融的曙光。
過去的2013年,中國金融界熱議最多的或許是互聯網金融,更有人指出2013年是中國互聯網金融元年。確實,第三方支付、P2P、網貸、眾籌融資、余額寶、微信支付等發展迅速。眾多傳統金融業者也或推出自己的電商平臺,或與互聯網企業聯手提供相應的金融產品和服務。
互聯網金融,無論是業界、監管者或理論界,都在試圖給出自己的理解和定義。但到目前為止,尚未有一個統一的、規范的概念。在我看來,互聯網金融本來就是一個不確切的概念,也不可能有一個明確的定義。嚴格說來,所謂互聯網金融只是大數據金融的一種展現或形態。換言之,前者是表,后者是里。
這是因為,無論是互聯網還是金融業,其實質都是大數據(信息)。首先,對互聯網企業而言,流量、客戶等數據(信息)是其涉足金融業的基石。對金融企業而言,提供中介服務,撮合金融交易也是以數據(信息)為基礎。
其次,沒有大數據技術的支撐,所謂互聯網金融也難以快速、持續成長。20世紀90年代互聯網浪潮的蓬勃興起,至今已近二十年。但從世界范圍看,所謂互聯網金融卻發展緩慢。當然,其中原因很多,但其主要原因則是大數據技術是近幾年才快速發展起來的。最后,從金融企業來看,在數據中心建設,軟硬件系統建設,數據(信息)挖掘、分析等方面也是做得有聲有色,其龐大的客戶數據、海量交易記錄及眾多信息源,使其在大數據應用方面也做了許多積極探索。因此,要準確反映近年新金融趨勢,“大數據金融”比“互聯網金融”更為貼切。
4 大數據應用中的三大難題
近年來,大數據這個詞成為互聯網領域關注度最高的詞匯,時至今日,大數據已經不再是IT圈的“專利”了,從去年的春晚,到剛剛過去的兩會,都能見到它的身影,但實際上春晚與兩會的數據都只能叫做小數據,它與真正的大數據還相差甚遠。即便如此,數據所產生的價值已經被人們所認知。
-
就大數據來說,它的發展可以分成三個階段,第一個階段是組織內部的數據,這些數據通常都是結構化的數據,我們一般將這些數據進行分類、排序等操作,將相同類型的數據進行對比、分析、挖掘,總而言之基本上都是統計工作。到了第二階段,數據的范圍擴大到行業內,各種各樣的應用數據出現,數據量大規模增長,尤其是非結構化數據的出現。典型的像視頻、圖片這一類的數據,在這一階段的特點就是非結構化和結構化數據并存,且數據量巨大,要對這些數據進行分析是我們目前現階段所處在的狀態。
第三階段則是未來大數據發展的理想化狀態,首先它一定是跨行業的,且數據的范圍是整個社會。通過對這些數據進行分析加以使用,將直接改變我們的生活方式,這也是現在很多企業所設想的未來交通、醫療、教育等領域的發展方向。
1.大數據太大不敢用
第三個階段是我們所憧憬的,但在我們所處的第二階段面對的更多是問題。其中的一個問題就是“大”。大數據給人最直觀的感受就是大,它所帶來的問題不僅僅是存儲,更多的是龐大的數據沒辦法使用,以交通為例,從2001
年開始在北京的主干道上都增設了一些卡口設備,到了今天基本上大街小巷都能看到。這些設備每天所拍攝的視頻及照片產生的數據量是驚人的,僅照片每天就能產生2千萬張,而解決這些數據的存儲只是最基本的任務,我們更需要的是使用這些數據。例如對套牌車輛的檢查,對嫌疑車輛的監控,當你想要使用這些數據的時候,傳統的數據庫以及系統架構,放進這么龐大的數據,是根本跑不動的。這一問題導致很多企業對大數據望而卻步。
2.大數據太難不會用
說到大數據的使用,自然離不開Hadoop,Hadoop本身提供了分布式系統中兩個最重要的東西:分布式存儲(HDFS)和分布式計算(Mapreduce)。這兩者解決了處理大數據面臨的計算和存儲問題,但更為重要的是,為開發大數據應用開辟了道路。 Hadoop是目前解決大數據問題最流行的一種方式,但其仍然有不成熟的地方,曾作為雅虎云計算以及Facebook軟件工程師的Jonathan Gray就表示:“Hadoop實施難度大,且復雜,如果不解決技術復雜性問題,Hadoop將被自己終結?!闭怯捎谶@樣的原因,Gray創辦了自己的公司——Continuuity,這家公司的目標就是在Hadoop和Hbase基礎上創建一個抽象層,屏蔽掉Hadoop底層技術的復雜性。由此可見想要用好大數據又是一大考驗。
3.大數據太貴用不起
~
Hadoop的特點就是讓你可以使用廉價的x86設備來完成大數據的業務,但事實上如果你真想要用它來完成某些商業任務你還得是個“土豪”。在國外那些使用大數據的成功案例里,亞馬遜曾給出過這樣一組數字,NASA需要為45天的數據存儲服務支付超過100萬美元。像Quant___cast這樣的數字廣告公司,同樣也是花費了巨額的資金用在Hadoop技術上,來根據自己的需求定制系統。從上面兩個案例來看用于商業用途的大數據現階段還是很費錢的,隨著大數據軟件環境逐漸成熟,開發工具增多,價格在未來會逐漸降低。
從上面羅列的這三點困難,其實并不是要給大數據潑冷水,而是想說大數據想要淘金并不簡單,首先在做大數據之前,好好盤點一下自己擁有的資源,不僅僅是數據資源,還包括知識與技能。確定了自己的能力之后,選擇一個能夠發
揮你現有資源最大價值的項目。如果你需要幫手,應先考慮商業顧問,再考慮技術人才。為了解答一個生意上的困惑花下的錢,叫作投資,而把錢投到一個擁有特殊技能的IT人才身上,那就叫沉沒成本。當你有了這些之后,選擇更靈活且可擴展的工具,為以后的擴充打好基礎。更重要的是——從小規模做起。
5 大數據創新的驅動力
計算機科學與技術的發展使得大規模信息處理基礎設施產生重要改變。在過去的30年中,經典的數據庫管理系統(DBMS)在處理大規模數據方面與時俱進,在企業數據處理等方面得到廣泛應用。數據庫研究和技術進展主要集中在數據建模、描述性查詢語言、事務處理和數據庫可靠性等。在這個過程中,相關的數據倉庫和數據挖掘分析技術也成為一個熱點研究方向;人們認識到數據處理過程中的信息可以被有效整理和分析來支持以數據為中心的決策支持。
數據庫管理系統在目前的互聯網時代繼續占據了重要地位。在一個典型的互聯網服務系統架構中,數據庫管理系統和Web服務器及應用服務共同作用,為互聯網用戶提供各類信息和服務。在這個系統架構中,人們期望系統能支持無限次和高速的互聯網用戶訪問,這個時候數據庫層由于在硬件可擴展性上面的不足可能成為系統性能瓶頸。這個挑戰我們稱為大數據問題(big data problem)。大數據系統期望能對大規模異構復雜數據建模,進行實時分析;傳統的商用數據庫系統很難提供良好的解決方案。另一個大數據相關的挑戰是服務器端數據中心的數據維護及安全隱私問題。近年來云計算技術已經成為大數據中心的一種可靠解決方案,Google, Yahoo and Microsoft等公司也紛紛開發自己的云計算系統。盡管云計算在互聯網應用中已經體現出很多優越性,其在系統成熟性、可用性等方面還有很大提高空間。
顯而易見,大數據領域的大規模數據管理和復雜數據分析已經成為新的研究前沿。目前的各類大數據應用正是大數據研究的驅動力,比如社會網絡、移動計算、科學應用等等。這些應用產生的大數據往往具有海量、時序動態性、多樣等特性,給數據庫領域的各項技術帶來巨大挑戰,涵蓋包括數據獲取、組織管理、分析處理和應用呈現等整個數據管理生命周期。針對數據管理和分析不同系統應用,各類大數據處理技術在也不斷發展。MapReduce作為一種分布式的數據處理框架由于其靈活性、可擴展性、高效和容錯等特性其近年來得到了廣泛應用。此外,也有多類其他分布式數據處理系統用來解決MapReduce不
擅長的問題,比如交互式分析、圖計算和分析、實時和流處理、通用數據處理等等。大數據不但給數據庫研究領域,同時也給體系結構、存儲系統、系統軟件和軟件工程等計算機多個學科帶來了很多機會和挑戰。大數據正是目前很多計算機科學問題的根本,并驅動眾多新科技的發展。
6 大數據的發展前景
大數據的概念來源于、發展于美國,并向全球擴展,必將給我國未來的科技與經濟發展帶來深遠影響。根據IDC 統計,目前數據量在全球比例為: 美國32%、西歐19%、中國13%,預計到2020 年中國將產生全球21% 的數據,我國是僅次于美國的數據大國,而我國大數據方面的研究尚處在起步階段,如何開發、利用保護好大數據這一重要的戰略資源,是我國當前亟待解決的問題。
.
而大數據未來的發展趨勢則從以下幾個方面進行:
(1)開放源代碼
大數據獲得動力,關鍵在于開放源代碼,幫助分解和分析數據。Hadoop 和NoSQL 數據庫便是其中的贏家,他們讓其他技術商望而卻步、處境很被動。畢竟,我們需要清楚怎樣創建一個平臺,既能解開所有的數據,克服數據相互獨立的障礙,又能將數據重新上鎖。
(2)市場細分
當今,許多通用的大數據分析平臺已投入市場,人們同時期望更多平臺的出現,可以運用在特殊領域,如藥物創新、客戶關系管理、應用性能的監控和使用。若市場逐步成熟,在通用分析平臺之上,開發特定的垂直應用將會實現。但現在的技術有限,除非考慮利用潛在的數據庫技術作為通用平臺 ( 如Hadoop、NoSQL)。人們期望更多特定的垂直應用出現,把目標定為特定領域的數據分析,這些特定領域包括航運業、銷售業、網上購物、社交媒體用戶的情緒分析等。同時,其他公司正在研發小規模分析引擎的軟件套件。比如,社交媒體管理工具,這些工具以數據分析做為基礎。
(3)預測分析
建模、機器學習、統計分析和大數據經常被聯系起來,用以預測即將發生的事情和行為。有些事情是很容易被預測的,比如壞天氣可以影響選民的投票率,但是有些卻很難被準確預測。例如,中間選民改變投票決定的決定性因素。但
是,當數據累加時,我們基本上有能力可以大規模嘗試一個連續的基礎。網上零售商重新設計購物車,來探索何種設計方式能使銷售利潤最大化。根據病人的飲食、家族史和每天的運動量,醫生有能力預測未來疾病的風險。當然,在人類歷史的開端,我們就已經有各種預測。但是,在過去,許多預測都是基于直覺,沒有依靠完整的數據集,或者單單靠的是常識。當然,即便有大量數據支撐你的預測,也不表明那些預測都是準確的。2007 年和2008 年,許多對沖基金經理和華爾街買賣商分析市場數據,認為房地產泡沫將不會破滅。根據歷史的數據,可以預測出房地產泡沫即將破裂,但是許多分析家堅持原有的觀點。另一方面,預測分析在許多領域流行起來,例如欺詐發現( 比如在外省使用信用卡時會接到的詐騙電話),保險公司和顧客維系的風險管理。
7 結語
大數據正在以不可阻攔的磅礴氣勢,與當代同樣具有革命意義的最新科技進步(如納米技術、生物工程、全球化等)一起,揭開人類新世紀的序幕??梢院唵蔚卣f,以往人類社會基本處于蒙昧狀態中的不發展階段,即自然發展階段?,F在,這一不發展階段隨著2012年的所謂“世界末日”之說而永遠成為了過去。大數據宣告了21世紀是人類自主發展的時代,是不以所謂“上帝”的意志為轉移的時代,是“上帝”失業的時代。
對于地球上每一個普通居民而言,大數據有什么應用價值呢只要看看周圍正在變化的一切,你就可以知道,大數據對每個人的重要性不亞于人類初期對火的使用。大數據讓人類對一切事物的認識回歸本源;大數據通過影響經濟生活、政治博弈、社會管理、文化教育科研、醫療保健休閑等等行業,與每個人產生密切的聯系。
大數據技術離你我都并不遙遠,它已經來到我們身邊,滲透進入我們每個人的日常生活消費之中,時時刻刻,事事處處,我們無法逃遁,因為它無微不至:它提供了光怪陸離的全媒體,難以琢磨的云計算,無法抵御的仿真環境。大數據依仗于無處不在的傳感器,比如手機、發帶,甚至是能夠收集司機身體數據的汽車,或是能夠監控老人下床和行走速度與壓力的“魔毯”(由GE與Intel 聯合開發),洞察了一切。通過大數據技術,人們能夠在醫院之外得悉自己的健
康情況;而通過收集普通家庭的能耗數據,大數據技術給出人們切實可用的節能提醒;通過對城市交通的數據收集處理,大數據技術能夠實現城市交通的優化。
隨著科學技術的發展,人類必將實現數千年的機器人夢想。早在古希臘、古羅馬的神話中就有冶煉之神用黃金制造機械仆人的故事?!墩摵狻分幸灿涊d有魯班曾為其母巧公制作一臺木馬車,“機關具備,一驅不還”。而到現代,人類對于機器人的向往,從機器人頻繁出現在科幻小說和電影中已不難看出。公元2035年,智能型機器人已被人類廣泛利用,送快遞、遛狗、打掃衛生……這是電影《我,機器人》里描繪的場景。事實上,今天人們已經享受到了部分家用智能機器人給生活帶來的便利。比如,智能吸塵器以及廣泛應用于汽車工業領域的機器手等等。有意思的是,2010年松下公司專門為老年人開發了“洗發機器人”,它可以自動完成從涂抹洗發水、按摩到用清水洗凈頭發的全過程。未來的智能機器人不會是電影《變形金剛》中的龐然大物,而會越來越小。目前,科學家研發出的智能微型計算機只和雪花一樣大,卻能夠執行復雜的計算任務,將來可以把這些微型計算機安裝在任何物件上用以監測環境和發號施令。隨著大數據時代的到來和技術的發展,科技最終會將我們帶進神奇的智能機器人時代。
在大數據時代,人腦信息轉換為電腦信息成為可能??茖W家們通過各種途徑模擬人腦,試圖解密人腦活動,最終用電腦代替人腦發出指令。正如今天人們可以從電腦上下載所需的知識和技能一樣,將來也可以實現人腦中的信息直接轉換為電腦中的圖片和文字,用電腦施展讀心術。2011年,美國軍方啟動了“讀心頭盔”計劃,憑借讀心頭盔,士兵無需語言和手勢就可以互相“閱讀”彼此的腦部活動,在戰場上依靠“心靈感應”,用意念與戰友互通訊息。目前,“讀心頭盔”已經能正確“解讀”45%的命令。隨著這項“讀心術”的發展,人們不僅可以用意念寫微博、打電話,甚至連夢中所見都可以轉化為電腦圖像。據美國《紐約時報》報道,奧巴馬政府將繪制完整的人腦活動地圖,全面解開人類大腦如何思考、如何儲存和檢索記憶等思維密碼作為美國科技發展的重點,美國科學家已經成功繪出鼠腦的三維圖譜。2012年,美國IBM計算機專家用運算速度最快的96臺計算機,制造了世界上第一個“人造大腦”,電腦精確模擬大腦不再是癡人說夢。試想一下,如果人類大腦實現了數據模擬,或許你的下一個BOSS是機器人也不一定。
總而言之,大數據技術的發展有可能解開宇宙起源的奧秘。因為,計算機技術將一切信息無論是有與無、正與負,都歸結為0與1,原來一切存在都在于數的排列組合,在于大數據。