初創企業的數據科學:入門篇

on December 24, 2019

Click here if you would prefer to read the English version.


本文探討如何將數據科學應用於初創企業,包括數據管道(data pipeline)、數據提取和研究(data extraction and tracking)、預測模型(predictive modeling)以及商業智能(business intelligence)的重要性和影響。我們將簡要地討論構建一個數據平台,配合各種不同功能,以利用數據學科達至最佳效能的想法。


coding courses hong kong


近年來,數據科學領域的範圍和機遇都不斷地發展,對於數據科學家而言,重要的是要認識到動態數據分析(dynamic data analysis)、可擴展模型(scalable models)、深度學習(deep learning)、數據處理器(data processors)和運行實驗(running experiments)的作用和價值。您將了解在為初創公司構建具有強大數據管道的有效數據科學平台和產品時,應考慮哪些因素和功能,以及如何實現整個構思。


數據科學:重要性和影響


data science


應用數據科學的目標應該是通過建立一個數據的體系結構和數據規範,為初創企業改進和擴展產品。數據科學的應用有:可以回答與業務增長前景、有效運營業務的方法、客戶行為和趨勢等相關的問題。

數據科學對業務的重要性和巨大影響取決於公司使用數據科學的用途,而這些用途通常有關於預測未來的業務。對於初創公司使用數據科學有以下一些好處:

  • 數據提取與分析
  • 識別關鍵業務指標
  • 建立數據管道
  • 客戶行為的預測模型
  • 找到業務的KPI
  • 用於測試產品功能的實驗模型
  • 可視化數據
  • 測試和驗證產品

另請閱讀:談談數據分析與數據科學


數據提取與跟踪


data extraction


數據收集和跟踪是構建數據科學模型的重要一環,並且是最先發生的一環。要分析有關用戶行為的所有信息,第一步應該是提取有關這個用戶群在該品牌下的數據。由於數據不足,初創企業通常對產品的進度和如何找到客戶感到困惑。

例如,如果您的業務是一個電子商務手機應用程序,那麼請務必密切注意用戶參與的時間範圍(user engagement timeframe)、事件日誌(event logs)、作用中的連線(active session)、應用程序被下載的次數、不同區域的數據特徵、支出,以及對以客戶為中心的特殊服務感興趣的人的數量。收集活躍用戶的實際活動數據將使您認識到自己的市場,以及你該如何發揮業務潛力。

您將估算可能購買或使用你的業務的用戶數量以及方式,以及監視中途退出率(用戶退出應用程序)、客戶反饋和有效的產品改進方式。

為了使所有這些數據驅動(data-driven)的操作發生,您必須嵌入一個特定的目標跟踪機制(target-specific tracking mechanism),該機制涉及識別可引起最多客戶關注的重大事件、屬性和產品功能。所嵌入的事件跟踪器(event tracker)使您能夠收集動態數據,可以對其進行進一步分析以更好地開發產品。


創建數據管道


structured data


收集數據後,就該進行實時分析,處理並將結果交付給用戶了。數據管道負責處理收集的數據,這是數據科學的關鍵部分。數據管道連接了強大的數據庫平台,例如Hadoop和SQL,在這些平台上進行大量的數據處理。

通常,初創企業在創建數據管道時需要處理三種類型的數據:

  • 原始數據:通常是指一些未被任何數據模型處理過的數據,原始數據不會以任何指定格式出現。通常,所追踪的事件會採用原始數據的形式,並且在數據管道的後期將適當的數據處理模型應用於它們。
  • 已處理數據:將數據處理模型應用於原始數據後,就會被視為已處理的數據。處理後的數據以指定的格式存在,並存儲在數據管道中的其他位置。
  • 動過手腳的數據:一個用戶事件基於不同的數據產品的使用情況,可以有不同用途。這些動過手腳的數據可以用來總結產品的日常使用情況。

理想的數據管道可以:

  • 實時發放訊息和存取
  • 可擴展的管道可以處理有大小變化的數據
  • 在更改和更新時有一定的數據穩定性及安全性
  • 如果檢測到任何數據接收錯誤,觸發警報

對於初創公司來說,必須測試數據管道的各個部份,以評估其性能、數據處理的速度、可擴展性(scalability)和准確度。


另請參閱:Top 10 Python libraries for Data Science 2020


商業智能


business intelligence


對於在初創公司工作的數據科學家來說,將這些用作總結您產品的未來增長和影響的無格式原始數據,整理成為用戶容易使用的格式數據至關重要,有助識別出產品的關鍵指標(KPI)有助您分析其產品表現。

KPI通常用於測量初創企業的表現或其能夠數字化的產品,這些KPI會總結有關產品增長和持久力的詳細信息。


R語言在數據主導的報表中的用途


r programming


與Python一樣,R是數據科學中用於創建網頁應用程序和圖形的另一種編程語言。此外,數據科學家還可以利用R來構建和訓練數據處理模型,特別是那些產生業務績效報告的模型。那些使用了R的數據解決方案替代了人手負責的報告,並將其轉變為能自動重複生產的報告。這意味著R有助於減少花費在手動報告上的成本和精力,並以自動形式生成報告。


使用ETL進行數據轉換(提取、轉換和加載)


data transformation


ETL的主要職責是將原始數據轉換為已處理的數據,並將已處理的數據轉換為動過手腳的數據。 ETL處理器配置為將原始數據轉換為動過手腳的數據,其中動過手腳的數據以聚合數據的形式存在。


探索性數據分析(EDA)


data analysis


當創建數據管道的工作完成時,您將深入研究數據以獲得關於產品改進的有用見解。因此,EDA可幫助您了解所收集數據的價值、類型和性質,確定各種參數和屬性之間的關係,並獲得有價值的見解。

數據產品分析探索性數據的關鍵方法是:

  • 數據繪圖
  • 統計摘要
  • 確定核心特徵
  • 呈現值的相關性
  • 運用機器學習(ML)來開發預測模型(Predictive Models)

沒有機器學習(ML)的能力的話,幾乎不可能構想數據科學的項目,尤其是在訓練數據模型來進行數據驅動的預測的情況下。預測性數據有助於企業預測用戶行為,數據科學初創企業可以使用預測性ML模型來設計和調整其產品,以達到用戶期望。這種模型最適合需要精確的推薦引擎的應用,您可以考慮為線上電影應用程式、電子商務或在線商店構建一個預測性ML模型。


數據科學產品的開發


product development


為初創公司工作的數據科學家可以通過改進產品來推動增長,但其實這是一項十分艱鉅的工作,他們需要明智地轉變模型的訓練和部署。僅使用生成報告的模型規範並不足夠,因為它並不是針對實際業務問題。

這就是為什麼在圖表中顯示信息可以幫助數據科學初創團隊解決模型中各種潛在問題的原因,為了順利部署和管理可擴展數據模型,Google DataFlow是初創公司的重要工具。


逐步改進產品的實驗


product improvement


在嘗試對產品進行新更改時,主要重點是新措施的結果是否使初創企業受益,並獲得客戶的好評。為此,明智的做法是選擇最常用的A / B測試,該檢驗在運用假設檢驗比較變量的兩個版本時得出結論。


另請閱讀:為什麼PYTHON是數據科學領域必學的語言?


總結

無論使用哪種方法或任何編程語言,初創企業使用數據科學的最終目標應該是增強產品,並使其更好地工作。對於任何一家初創公司而言,至關重要的是,通過實施良好的數據規範並減少丟失任何數據,能實現業務增長並在市場變化中維持良好表現。


career development


初創企業為了獲得最大的成功機會,它們自己要研究出比基本數據模型做到更好的模型,並適應動態數據管道、數據處理器、預測性數據模型以及ETL和實驗產品。由於產品不斷提高的健康水平與創業公司的增長和決策息息相關,因此數據科學家需要訓練模型以預測用戶行為和對產品進行不斷的革新。