談談數據分析與數據科學

Xccelerate
October 31, 2019
Last updated on
June 13, 2024

Click here if you would prefer to read the English version.



數據科學是商業領域中一個相對較新的領域,因此,通常情況下,大多數希望進入並利用這一新興領域的企業可能並不完全知道自己想要什麼。

「我要在公司中使用數據科學還是數據分析?」

是企業主最常問的一個問題,因此希望本文能明確回答這個問題。

「到底公司需要數據科學家還是數據分析師?」這是近年商業社會中最常出現的一條問題,原因是數據科學這一新興領域的出現,相關的技術成為了商界兵家必爭之地。但是,很多人會混淆了數據科學和數據分析,到底他們真正需要的,是數據科學還是數據分析?兩者有何區別?

什麼是數據科學?

數據科學是一個從提取數據,整合,並進行分析的複雜過程,當中給合了計算機科學、數學、統計學以及相關領域的知識,以幫助企業了解其客戶,了解行業的競爭並做出相對的決策。

相關文章:

為何 DATA SCIENCE 對香港如此重要

如何成為香港的數據科學家

什麼是數據分析?

數據分析是一個對數據加以詳細研究和概括總結的過程。與數據科學大致相同,除了一個重要的細節:數據分析會先建立數據分析模型和目標,並收集大量數據進行分析,最後提取有用信息和形成對業務有幫助的結論。

數據科學與數據分析的區別

最簡單區分數據科學和數據分析的方法是涵蓋問題的範圍,數據科學比數據分析涵蓋更廣的問題。上文提到數據分析會先建立數據分析模型和目標,從而總結;而數據科學則會進行更加深入的探討,提出更多的問題,以發掘新的知識和目標。

[Invalid image]

從另一角度解釋,數據分析師會對來自一個數據集(dataset)的數據進行內容分析,例如:房地產市場,而數據科學家則會將不同來源的數據集組合在一起,務求得出更多新的見解。

相關文章:

Visualizing Real Estate Markets With Power BI

由於數據科學不會局限於預先定義的分析模型和目標,致力尋找新發現或尚未發生的新知識和見解,因此與科學家有點相似。

我們用一個簡短的示例來區別數據科學與數據分析:
問題:明天是否會下雨?
數據分析師會收集天氣數據並預測明天是否下雨。很直接簡單吧?
但是,對於數據科學家而言, 他們想的更多,他們認為下雨可能會影響業務,因此他們將財務數據與天氣數據一起收集,並查看下雨是否確實會影響業務績效。

[Invalid image]

因此,在企業的角度,他們需要有一些數據科學項目(或數據分析項目)去發掘以下三個問題:「什麼?」,「為何?」,「下一步是什麼?」

「什麼?」

「什麼?」問題能解釋有關數據集的不同假設,情況和相關性。例如:「過去六個月的銷售總體趨勢是什麼?」或「香港某個月份的總銷售量是多少?」
數據科學和數據分析都能回答“What”問題,這是因為兩者都需要先進行探索性數據分析( Exploratory Data Analysis,簡稱EDA),才能有利下一步。EDA很重要,從各方面先了解資料的狀況,清楚掌握數據集,進而分析並產生更深刻的見解。

「為何?」

「為何?」屬於調查性問題,其後設計可行的解決方案。例如,「為什麼這是香港十二月份的銷售數量?」然後我們運用數據分析技術去尋找答案。比如查看每項數據與銷售額的關聯之處,找出所有正面或負面的關聯。 數據科學和數據分析都可以做到這一點。

「下一步是什麼?」

這就是數據科學和數據分析開始有所不同的地方。數據分析會停留左停在「為何?」
。 而數據科學涵蓋了「下一步是什麼?」例如,「明年香港十二月份的銷售數字是多少?」數據科學運用更先進的統計技術,探索「範圍」之外的問題。
為了進一步說明這一點,我們為超市創建一個簡單的數據集,以進行一些簡單的數據分析。

第四季總銷售量蘋果銷售量芒果銷售量十月\$1000006000040000十一月\$1300006500020000十二月\$1200006200030000一月\$900005800010000

現在讓我們再次使用三個問題:「什麼?」,「為何?」,「下一步是什麼?」

「什麼?」

現在,我會把數據可視化,以便理解。 例如我會找出過去幾個月的銷售趨勢:

[Invalid image]

如果您注重視覺效果,Tableau可以幫助您使可視化效果更加美觀和專業。

相關文章:

數據可視化 - 如何用TABLEAU給你的老闆深刻印象(第1部分)

「為何?」

我注意到總銷售趨勢正在下降。 因此,我開始研究這與其他數據的關聯性,我留意到總銷售額與蘋果銷售額具有相似的趨勢。

[Invalid image]

最後發現,總銷售額和蘋果銷售額之間確實存在正面關聯。 由此,如果我們想增加總銷售額,考慮到這正相關性,我們可以推斷:加強蘋果的營銷以增加蘋果的銷售額,有助增加總銷售。

「下一步是什麼?」

為了進行銷售預測,我們可以創建一個迴歸分析模型(Regression Model)。利用Python迴歸分析模型,並找出配合我們假設的指標。我們還可以使用此模型來預測銷售數量。
確定係數(Coefficient)可以確定迴歸分析模型預測未來結果的能力。由於確定係數約為0.957,因此每當我們進行預測時,預測值將會相對準確。這樣,根據目標總銷售額為150000美元的模型,該模型預測蘋果的銷售額將為67650美元。

[Invalid image]

利用Python的代碼和結果可找到確定和預測的係數。
僅需幾行Python代碼即可快速生成此預測。這比通過Excel進行多次點擊和鍵盤輸入來進行數據分析更快更有效。

相關文章:

數據分析:EXCEL V.S. PYTHON
【職涯規劃】2019年最好景的大數據職位 年薪達 $84萬

希望此文章能幫助您更好地理解數據分析和數據科學之間的區別。現在無論在任何領域,數據科學已成為商界兵家必爭之地。懂得處理數據人員的需求日益增長。

如果您想學習有價值的東西,不妨前往Xccelerate看看有關數據科學和Python課程。

數據科學課程:

Python 基礎課程:

相關文章:

為什麼PYTHON是數據科學領域必學的語言?

成為數據主導企業 - 困難嗎?

我的工作會否被人工智能AI取代? 【Marketer 營銷篇】