大數(shù)據(jù)是當(dāng)前很熱的一個(gè)詞。這幾年來,云計(jì)算、繼而大數(shù)據(jù),成了整個(gè)社會(huì)的熱點(diǎn),不管什么,都要帶上“大數(shù)據(jù)”三個(gè)字才顯得時(shí)髦。大數(shù)據(jù)究竟是什么東西?對(duì)普通人的生活會(huì)有怎樣的影響?我們來一步步弄清這些問題。
一、基本概念
在講什么是大數(shù)據(jù)之前,我們首先需要厘清幾個(gè)基本概念。
1.數(shù)據(jù)
關(guān)于數(shù)據(jù)的定義,大概沒有一個(gè)權(quán)威版本。為方便,此處使用一個(gè)簡(jiǎn)單的工作定義:數(shù)據(jù)是可以獲取和存儲(chǔ)的信息。
直觀而言,表達(dá)某種客觀事實(shí)的數(shù)值是最容易被人們識(shí)別的數(shù)據(jù)(因?yàn)槟鞘恰皵?shù)”)。但實(shí)際上,人類的一切語言文字、圖形圖畫、音像記錄,所有感官可以察覺的事物,只要能被記下來,能夠查詢到,就都是數(shù)據(jù)(data)。
不過數(shù)值是所有數(shù)據(jù)中最容易被處理的一種,許多和數(shù)據(jù)相關(guān)的概念,例如下面的數(shù)據(jù)可視化和數(shù)據(jù)分析,最早是立足于數(shù)值數(shù)據(jù)的。
傳統(tǒng)意義上的數(shù)據(jù)一詞,尤其是相對(duì)于今天的“大數(shù)據(jù)”的“小數(shù)據(jù)”,主要指的就是數(shù)值數(shù)據(jù),甚至在很多情況下專指統(tǒng)計(jì)數(shù)值數(shù)據(jù)。這些數(shù)值數(shù)據(jù)用來描述某種客觀事物的屬性。
對(duì)應(yīng)英語的data visualization (或可譯為數(shù)據(jù)展示),指通過圖表將若干數(shù)字以直觀的方式呈現(xiàn)給讀者。比如非常常見的餅圖、柱狀圖、走勢(shì)圖、熱點(diǎn)圖、K線等等,目前以二維展示為主,不過越來越多的三維圖像和動(dòng)態(tài)圖也被用來展示數(shù)據(jù)。
3.數(shù)據(jù)分析
這一概念狹義上,指統(tǒng)計(jì)分析,即通過統(tǒng)計(jì)學(xué)手段,從數(shù)據(jù)中精煉對(duì)現(xiàn)實(shí)的描述。例如:針對(duì)以關(guān)系型數(shù)據(jù)庫中以table形式存儲(chǔ)的數(shù)據(jù),按照某些指定的列進(jìn)行分組,然后計(jì)算不同組的均值、方差、分布等。再以可視化的方式講這些計(jì)算結(jié)果呈現(xiàn)出來。目前很多文章中提及的數(shù)據(jù)分析,其實(shí)是包括數(shù)據(jù)可視化的。
4.數(shù)據(jù)挖掘
這個(gè)概念的定義也是眾說紛紜,落到實(shí)際,主要是在傳統(tǒng)統(tǒng)計(jì)學(xué)的基礎(chǔ)上,結(jié)合機(jī)器學(xué)習(xí)的算法,對(duì)數(shù)據(jù)進(jìn)行更深層次的分析,并從中獲取一些傳統(tǒng)統(tǒng)計(jì)學(xué)方法無法提供的Insights(比如預(yù)測(cè))。
簡(jiǎn)單而言:針對(duì)某個(gè)特定問題構(gòu)建一個(gè)數(shù)學(xué)模型(可以把這個(gè)模型想象成一個(gè)或多個(gè)公式),其中包含一些具體取值未知的參數(shù)。我們將收集到的相關(guān)領(lǐng)域的若干數(shù)據(jù)(這些數(shù)據(jù)稱為訓(xùn)練數(shù)據(jù))代入模型,通過運(yùn)算(運(yùn)算過程稱為訓(xùn)練),得出那些參數(shù)的值。然后再用這個(gè)已經(jīng)確定了參數(shù)的模型,去計(jì)算一些全新的數(shù)據(jù),得出相應(yīng)結(jié)果。這一過程叫做機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)的算法紛繁復(fù)雜,最常用的主要有回歸分析、關(guān)聯(lián)規(guī)則、分類、聚類、神經(jīng)網(wǎng)絡(luò)、決策樹等。
二、大數(shù)據(jù)和大數(shù)據(jù)分析
大數(shù)據(jù)首先是數(shù)據(jù),其次,它是具備了某些特征的數(shù)據(jù)。目前公認(rèn)的特征有四個(gè):Volumne ,Velocity,Variety和Value,簡(jiǎn)稱4V。
1.Volume:大量。就目前技術(shù)而言,至少TB級(jí)別以下不能成大數(shù)據(jù)。
2.Velocity:高速。1TB的數(shù)據(jù),十分鐘處理完,叫大數(shù)據(jù),一年處理完,就不能算“大”了。
3.Variety:多樣。就內(nèi)容而言,大數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)不局限數(shù)值,文字、圖片、語音、圖像,一切在網(wǎng)絡(luò)上可以傳輸顯示的信息,都屬于此列。從結(jié)構(gòu)而言,和存儲(chǔ)在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)不同,當(dāng)前的大數(shù)據(jù)主要指半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息,比如機(jī)器生成信息(各種日志)、自然語言等。
4.Value:價(jià)值。如果不能從中提取出價(jià)值,不能通過挖掘、分析,得到指導(dǎo)業(yè)務(wù)的insights,那這些數(shù)據(jù)也就沒什么用。不過現(xiàn)在還有另外一種提法:只要是數(shù)據(jù)就都有用,能不能獲得價(jià)值,是分析人員的能力問題。
大數(shù)據(jù)分析,顧名思義,就是將前述的數(shù)據(jù)可視化、數(shù)據(jù)分析、數(shù)據(jù)挖掘等方法作用到大數(shù)據(jù)之上。
從某種意義上講,大數(shù)據(jù)可謂機(jī)器學(xué)習(xí)的福音,很多原有的簡(jiǎn)單粗糙的機(jī)器學(xué)習(xí)模型,僅僅因?yàn)橛?xùn)練數(shù)據(jù)量級(jí)的增加就大幅提高了準(zhǔn)確性。還有一些模型則因?yàn)闇?zhǔn)確性隨著數(shù)據(jù)量增加而增加的勢(shì)頭尤其明顯,得以脫離默默無聞而被廣泛使用。
三、大數(shù)據(jù)的影響
大數(shù)據(jù)概念的興起正在對(duì)我們的社會(huì)產(chǎn)生多方面的影響:
1.定量分析
因“大數(shù)據(jù)”而使得人們開始關(guān)注“數(shù)據(jù)”,可謂最首要的影響。尤其對(duì)于國(guó)內(nèi)而言,越來越多的決策者開始重視數(shù)據(jù)的力量,會(huì)在決斷同時(shí)參考各類統(tǒng)計(jì)、分析報(bào)表,而不再是憑直覺拍腦袋。
2.從必然到相關(guān)
相對(duì)于傳統(tǒng)的小數(shù)據(jù)統(tǒng)計(jì),大數(shù)據(jù)更關(guān)注與發(fā)現(xiàn)事物之間的相關(guān)性,而非因果關(guān)系。人類歷經(jīng)百萬年基于數(shù)據(jù)貧乏的現(xiàn)狀而形成的“因?yàn)椤浴钡乃季S習(xí)慣,在大數(shù)據(jù)時(shí)代,是否會(huì)向“……有關(guān)聯(lián)……”轉(zhuǎn)變?
3.信息安全
以今日的技術(shù),一個(gè)人的個(gè)人信息、網(wǎng)頁瀏覽記錄、購物記錄、對(duì)圖書影片等內(nèi)容的偏好,在瀏覽不同頁面時(shí)的行為習(xí)慣,如此種種,都可以輕易被商家或某些機(jī)構(gòu)獲取。在大數(shù)據(jù)的籠罩之下,每個(gè)人都將無所遁形。那么,對(duì)于每個(gè)人本該擁有的隱私權(quán),該如何保護(hù)?
新技術(shù)解決了許多之前無法解決的問題,然而,新生事物也帶來了新的問題。像所有技術(shù)一樣,大數(shù)據(jù)也是一把 “雙刃劍”。能否用其利除其弊,有賴于全社會(huì)的共同努力。
添加專屬銷售顧問
掃碼獲取一對(duì)一服務(wù)