AI、BI、大數據,資料科學的關係和區別是什麼?一文帶你讀懂

IT公社
15 min readNov 3, 2021

--

文章作者:公眾號【大數據DT】

01 資料

資料幾乎滲透到我們生活的每一個角落,從我們在手機中留下的數字足跡,到健康記錄,再到購物歷史,以及對資源(如能源)的使用情況。在當今這個數字世界裡,脫離數字的生活雖然不是不可接受的,但也需要巨大的犧牲精神和不可思議的毅力才能忍受。

我們不僅是資料製造者,同時也是活躍的資料消費者。例如我們時常檢查自己的線上消費習慣,監測健身程式,或者檢視自己的常旅客積分是否夠去加勒比度假,這些行為都是在消費資料。

但資料到底是什麼?按最通用的形式來理解,資料就是被儲存起來以備日後使用的資訊。最早記錄資訊的方式可能是在動物骨頭上刻蝕符號。到了20世紀50年代,人們開始在磁帶上記錄數字資訊,然後是打孔卡片,再後來是使用磁碟。現代資料處理開始的時間並不長,但已經奠定了我們如何收集、儲存、管理、使用資訊的基礎。

直到最近,我們對那些無法計算的資訊(例如,影片和影象資訊)還只能進行分類處理。但近幾年來,透過大量的技術變革,無法儲存的資料型別變得越來越少了。事實上,儲存的資訊,或者資料,就是以一種可用的編碼方式,為了我們可計算的目的而建立的真實世界的模型。

資料是真實世界中所發生事情的持續記錄或“模型”,這一事實是分析學的一個重要特徵。被公認為“20世紀最偉大的統計學家之一”的喬治·鮑克斯(George Box)曾經說過:“所有的模型都是錯誤的,但有些模型是有用的。”

很多時候,我們在資料中發現一些沒有意義或者完全錯誤的東西。請記住,資料是從真實的物理世界轉化並抽象為代表真實世界的東西,即喬治所說的“模型”。就像機械速度計是測量速度的標準一樣(也是衡量速率的一個很好的替代物),這個模型(指機械速度計)實際上是測量輪胎的轉速,而不是速度。

總之,資料是儲存的資訊,是所有分析的基礎。例如,在視覺化分析中,我們利用視覺化技術和互動介面對資料進行解析和推理,找出資料本身存在的規律。

02 分析

分析(analytics)可能是商業中使用得最多但卻最難理解的術語之一。對一些人來說,它是一種用來“把資料屈打成招”(找出資料中潛藏規律)的技術或技巧,或者僅僅是商業智慧與資料倉庫的延伸;而對另外一些人來說,分析則是用於開發模型的統計、數學或定量方法。

Merriam-Webster字典稱分析是“一種邏輯分析的方法”。Dictionary.com字典將分析定義為“邏輯分析的科學”。不幸的是,兩種定義都直接使用了分析(analysis)這個詞的詞根,似乎存在迴圈解釋的邏輯錯誤。

分析(analysis)這個詞的起源可以追溯到16世紀80年代的中世紀拉丁語(anal-yticus)和希臘語(anal-ytiks),意思是“分解”(break up)或者“放鬆”(loosen)。我把分析(analytics)定義為一種解決資料驅動問題的結構化方法:透過對事實(資料)的仔細推敲,幫助我們解決問題的一套方法論。

關於分析的定義有很多爭論。就當前討論的問題而言,我將分析定義為:

一種全面的、基於資料驅動的解決問題的策略與方法。

我有意避免將分析定義為某個“過程”、某種“科學”或“學科”。相反,我將分析定義為一種全面的策略,正如讀者將在本書第二部分中看到的那樣,它是包含過程、規則、可交付物的最佳實踐。

分析透過使用邏輯、歸納推理、演繹推理、批判思維、定量方法(結合資料)等手段,來檢驗和分析現象,從而確定其本質特徵。分析植根於科學方法,包括問題的識別和理解、理論生成、假設檢驗和結果交流。

歸納推理

當積累的證據被用來支援一個結論,但結論仍帶有一些不確定性的時候,就會用到歸納推理方法。也就是說,最終的結論有可能(存在一定機率)與給定前提不一致。透過歸納推理,我們基於具體的觀測或資料能夠做出廣泛的、一般意義上的概括和總結。

演繹推理

演繹推理基於某些一般案例提出論斷,然後依靠資料,使用統計推斷或實驗手段證明或證偽提出的論斷。例如,按照演繹推理方法,我們提出一個關於世界運動方式的基本理論,然後(應用資料)去檢驗我們提出的假設的正確性。

分析可以用來解決各種各樣的問題。例如,UPS公司應用分析結果而採取最佳化貨物運輸措施,節省了150多萬加侖(1加侖=3.785 41立方分米)的燃油,減少了14 000噸的二氧化碳排放量 ;克利夫蘭診所利用分析結果優化了手術室的運營時間安排。

有了這些成功案例,對於技術供應商(硬體和軟體)和其他不同支持者來說,“分析”毫無疑問都是極具吸引力的。當然,“分析”這個詞當前存在過度使用危險,這可以從人們把這個術語與其他詞的各種組合中看出。諸如:

●大數據分析(big data analytics)
●規範性分析(prescriptive analytics)
●業務分析(business analytics)
●操作分析(operational analytics)
●高階分析(advanced analytics)
●實時分析(real-time analytics)
●邊緣或環境分析(edge or ambient analytics)

雖然以上這些組合與搭配在分析應用的型別和描述上具有獨特性,但也經常造成理解上的混亂,特別是對企業高管(如CXO層次高管)而言,技術供應商總是熱衷於提供最新的分析解決方案,試圖能解決他們的每一個業務痛點。

我的觀點(許多志同道合、理性思考的人也有與我相同的觀點)是,分析並不是一種技術,技術只是在分析活動中起到了推動和賦能作用的策略和方法。

分析通常也指能夠識別資料之間有業務意義的模式和關係的任何解決方案。分析被用於解析不同規模的、不同複雜程度的、結構化和非結構化的、定量或定性的資料,以便從中實現對特定問題的理解、預測或最佳化的明確目的。

所謂高階分析也是分析的子集,它使用複雜的分析技術來支援基於事實的決策過程,而且這種分析通常是以自動化或半自動化的方式開展的。

高階分析通常包括資料探勘、計量經濟建模、預測、最佳化、預測建模、模擬、統計和文字挖掘等技術。

03 商業智慧和報表

關於分析與商業智慧的區別,幾乎沒有形成過共識。有些人將分析歸類為商業智慧的一個子集,而另一些人則把它歸為完全不同的類別。我把商業智慧(BI)定義為:

一種管理策略,用來建立一種更有結構性和更有效的決策方法……BI包括報表、查詢、聯機分析處理(OLAP)、儀表盤、記分卡甚至分析等常見要素。綜合性術語BI也可以指獲取、清理、整合和儲存資料的過程。

有些人會將分析和商業智慧之間的區別歸納為兩個方面的不同:

1. 所使用量化方法(即演算法、數學、統計)的複雜度;

2. 所產生結果是針對歷史已發生的還是未來將發生的。

也就是說,商業智慧的重點是使用相對簡單的數學方法來對歷史資料進行展示和呈現,而分析則被認為是採用更復雜的計算邏輯,並且能夠預測一些特定問題、識別因果關係、確定最優解決方案的方法,有時也被用於指明需要採取的行動與措施。

大多數商業智慧應用的侷限性並不在於技術的限制,而在於分析的深度和為行動提供依據的真正洞察力。例如,告訴我已經發生了什麼事情並不能幫助我決定如何行動以改變未來,這樣的結果往往是透過離線分析(offline analysis)得到的。

分析的真正責任是形成可行動的、可操作的洞察力,從而能夠幫助我們瞭解已經發生的事情(在什麼地點發生,為什麼會發生,在什麼條件下發生),預測出未來可能發生什麼,以及我們可以做什麼來影響和最佳化未來的結果。

請注意,圖1–1中描述的BI儀表盤描述了有關過去的事實,如銷售、呼叫量、產品和賬戶,使你很容易獲得組織當前銷售狀態或活動情況的快照。

▲圖1–1 商業智慧儀表盤,來源:QlikTech International AB

商業智慧和它的近鄰“報表”,都是用來描述有關現象的資訊展示技術,通常位於資料傳遞管道的尾部,在那裡可以直觀地訪問資料和結果。而另一方面,分析則超越了對資料的描述,它真正理解了這個現象的內在規律,從而來預測、最佳化和預判未來應採取的適當行動。

從傳統上看,商業智慧一直存在兩個缺點,這源於它們與這樣的事實有關:

  1. BI通常專注於建立對過去已經發生事實的認識,因為它側重於度量和監視,而不是預測和最佳化;
  2. 其計量分析往往不夠複雜,無法建立足以產生精確洞察力的有意義的改變(雖然正確的報表或視覺化展現也可以對改變產生影響,但還不夠精確)。

如果把商業智慧與深入的“分析”恰當地結合在一起,而不僅僅停留在對事實的認識,它就更接近分析,但它又往往缺乏高階分析解決方案中經常用到的複雜統計、數學或者“機器學習”方法。

因此,我認為分析是商業智慧總體框架內所包含的概念的一種自然演變。它更加強調充分開展必要的各種活動,以形成能促進行動的真知灼見。分析遠遠不止於在自助操作儀表盤或報表介面中所使用的、預先定義的視覺化元素。

04 大數據

大數據(big data)是一種描述不和諧資訊的方法,在將資料轉化為洞察力的過程中,組織必須處理這些難以處理的資訊。1997年,Michael Cox和David Ellsworth首次使用了大數據這一表述,他們當時提到的“問題”如下:

視覺化為計算機系統提供了一個有趣的挑戰:資料集通常相當大,佔用了大量主記憶體、本地磁碟甚至遠端磁碟的容量。我們稱之為大數據問題。當資料集大到無法存放在主記憶體(核心儲存器),或者甚至無法儲存在本地磁碟上時,最常見的解決方案是擴充並獲取更多的資源。

將大數據視為一個概念,它突出了這樣一種挑戰:資料的規模和複雜性超出了傳統資料分析方法能夠處理的範圍。我們將大數據與傳統的“小”資料進行對比,包括其容量(我們擁有多少資料)、速度(產生與獲得資料的快慢)和多樣性(包括數字、文字、影象、影片等多種資料形態)。

如果大數據是用來描述當今資訊複雜性的概念,那麼分析就可以幫助我們以主動的方式(預測性和規範性)來分析複雜性,而不是以被動的方式(即商業智慧的範疇)來應對。

05 資料科學

與數據相比,定義資料科學顯得不是一件輕而易舉的工作,因為在資料科學的眾多定義中,很少發現一致的描述。關於資料科學意味著什麼,以及它是否與分析完全不同,目前存在很多爭論。

還有一些人,甚至試圖透過討論資料科學家的工作來定義資料科學:資料科學家所需要的技能,他們所扮演的角色,他們所使用的工具和技術,他們工作的地方,以及他們的教育背景,等等。但這些並沒有對資料科學給出一個有意義的定義。

與其按照人(資料科學家)或他們所處理的問題來定義資料科學,不如將其定義如下:

資料科學是一門科學學科,它利用統計和數學等領域的定量方法以及現代技術,開發出用於發現模式、預測結果和為複雜問題找到最佳解決方案的演算法。

資料科學和分析的區別在於,資料科學可以幫助甚至支援自動化實現對資料的分析,但是分析是一種以人為中心的策略,它充分利用各種工具,包括那些在資料科學中發現的工具,來理解事物現象之間的真正本質。

資料科學可能是這些概念中涉及面最廣泛的,因為它關係到處理“資料”的整個科學和實踐。我認為資料科學是由計算機科學家設計的分析學,但在實踐中,資料科學往往側重於對一般性宏觀問題的研究,而分析往往側重於解決特定行業或具體問題的挑戰。

06 邊緣(和環境)分析

在很多現代企業,分析是它們的一種核心業務活動,這些企業透過資料驅動和以人為中心的業務運營與管理流程實現了資料的大眾化(democratize data)。

邊緣分析(edge analytics)一般指的是分散式分析,在這種場景下,分析被內建到一些機器或系統中,透過這種內建的方式,資訊的生成與收集已經成為企業“下意識”的自主活動。

邊緣分析通常與智慧裝置相關,這種情況下,分析計算是在資料收集點(例如裝置、感測器、網路交換機或其他裝置)開展的,與傳統的資料管道傳輸方式(即採集資料、傳輸資料、清洗資料、整合資料、儲存資料)不同,邊緣分析把分析嵌入到收集資料的裝置中完成或就近實現。

資料大眾化

所謂資料大眾化,指的是資料開放,使每個能夠而且應該能夠獲得資料的人都有權透過工具來探索獲取這些資料,而不是將資料侷限於少數特權群體。

例如,傳統的信用卡欺詐檢測依賴於機器(例如讀卡器),並透過與授權“代理”的連線傳送請求來驗證一個交易,演算法需要在極短的時間內(百分之一毫秒)對此交易完成授權或打上欺詐標籤,最後,讀卡裝置接收授權指令後完成或拒絕交易操作。在邊緣分析中,演算法將執行在儀器本身上(比如帶有嵌入式分析的智慧晶片讀卡器)。

邊緣分析通常與物聯網(IoT)聯絡在一起。最近IDC在針對物聯網IoT未來視界(FutureScape)的一份報告中提出,到2018年,40%的物聯網資料將在網路中產生資料的邊緣完成資料的儲存、處理、分析和響應。

隨著物聯網的發展,我們很可能會看到未來對所謂的“萬物分析”(Analytics of Things,AoT)有更多的關注,它指的是分析將給物聯網資料帶來獨特價值的機會。

環境分析(ambient analytics)是另一個相關的術語,它的名字意味著“分析無處不在”。就像房間的燈光或音響常常不被注意,但卻為舞臺構建了氛圍一樣,環境分析也會影響我們工作和娛樂的環境。

我們看到環境智慧正在日常生活場景中發揮作用,比如檢測血糖水平和注射胰島素。同樣,當你回到住家附近時,家居自動化裝置檢測到相應資訊,會自動調整溫度和開啟照明。環境分析超越了基於簡單規則的決策,它利用演算法來決定合適的行動路線。

毫無疑問,邊緣和環境分析將繼續挑戰傳統的以人為中心的管理方式與流程,傳統管理方式下,使用分析結果(如對分析的理解、決策和採取的行動)以人為主,而在邊緣和環境分析中會有越來越多的(不需要人工介入的)自主決策與執行。

07 資訊學

資訊學(informatics)是資訊科技和資訊管理的交叉學科。在實踐中,資訊學涉及用於資料儲存和檢索的處理技術。從本質上講,資訊學討論資訊是如何管理的,指的是支援流程化工作流的系統和資料生態系統,而不是對其中發現的資料進行分析。

在資訊科學中經常談到的健康資訊學,它專門用於保健醫療研究,是介於健康資訊科技和健康資訊管理之間的一種專業技術,它將資訊科技、通訊和保健融合起來,以提高病人護理的質量和安全性。它位於人、資訊和技術三者交匯處的中心。

保健政策是指在一個社會中為實現特定的保健目標而採取的決定、計劃和行動。保健政策制定者希望看到醫療保健變得更經濟、更安全、更高質量,資訊科技和健康資訊科技往往是實現這一目標的重要手段。

事實上,其中一項最必不可少的工作是正確定位資料資源,使之能提供每個患者360度的完整健康狀況資訊檢視,只有資料共享才能做到這一點(見圖1–2)。

▲圖1–2 健康資訊管理、健康資訊科技和資訊學之間的區別

08 人工智慧與認知計算

人工智慧(AI)是一門“讓計算機做需要人類智慧才能做的事情的科學”。

人工智慧和機器學習的區別在於,人工智慧是指利用計算機完成模式的識別與探索這類“智慧”工作的廣義概念,而機器學習是人工智慧的子集,它主要指利用計算機從資料中學習的概念。

機器學習是人工智慧的一個子集,它可以根據資料進行學習和預測,不是僅僅根據特定的一組規則或指令完成事先規劃好的操作,而是利用演算法訓練來自主識別大量資料中的模式。

人工智慧(和機器學習)可以在分析生命週期中使用,以支援發現和探索(例如,資料是如何構造的,存在什麼模式等)。人工智慧在分析中的應用通常以機器學習(如上文所述)或認知計算的形式出現。

認知計算是一種獨特的應用,它將人工智慧和機器學習演算法結合在一起,試圖複製(或模仿)人腦的行為。

認知計算系統被設計為像人一樣透過思考、推理和記憶等方式來解決問題。這種設計方法使認知計算系統具有一個優勢,使得它們能夠“隨著新資料的到來而學習和適應”並“探索和發現那些你永遠不會知道去問的東西”。

認知計算的優勢在於,一旦它學會了某種能力,它就永遠不會忘記,而人類往往做不到這一點。

在人與演算法的競爭中,不幸的是,人類常常輸掉。人工智慧的優勢就在於此。因此,如果我們要成為聰明的人,就必須學會謙遜,因為在計算機世界裡,我們的直覺判斷可能還不如依靠一組簡單規則實現的演算法。

— — Farnham Street部落格(Parish,2017,Do Algorithms,在複雜的決策中演算法能擊敗我們嗎?)

在狹義的術語中,人工智慧代表人類智慧,而認知計算則提供資訊來幫助人們做出決策。

關於作者:

格雷戈裡·S. 納爾遜(Gregory S. Nelson),ThotWave的創始人和CEO,是國際分析研究所(International Institute for Analytics)的專家,也是杜克大學福卡商學院(Fuqua School of Business)的特約教授。

推薦閱讀

企業大數據到底是什麼,讀完本文你就懂了!

關於資料倉庫建設和資料治理的超全概括

什麼是資料治理,如何進行資料治理

詳細解析資料中台底層邏輯架構

--

--