一般來說,我們可以將一個資料 (data set)想成一個 Excel的檔案。其中的n筆資料包含了p個變數名稱。例如:班級成績資料,其中包含了 n 位同學的 p 科成績(如國文、英文、數學等);一般還會有學生姓名及學號等欄位以方便登錄區別。
雖然資料可以想像為真實世界的一個照片或側寫,因此角度與取景不同可能會影響其反應真實世界的有效性。但資料本身未嘗不是如此。不論是從數據面或圖像面,現代的資料常常是龐大而難以掌握。正因如此,我們提示幾個資料/資料分析的本質:
瞎子摸象
Data Summary (Numerical and graphical) 如同瞎子摸象,應要隨時提醒自己不過是以管窺豹,以蠡測海。
由於複雜與龐大,資料常常需要被壓縮或選擇性地呈現。數據面:如平均、標準差、中位數、5-point summary 等 summary statistics; 圖形面:box plot, histogram, pie-chart 等。更不用說高維度的資料的資料壓縮。
看著照後鏡開車
基本上我們常常將資料分析後用於推論。本質上,是以已知來推測未知;由過去推測未來;或由訓練樣本來推測測驗樣本。以傳統統計的語言來說,其實也就是樣本以及母體的區別。預測也好,所謂的AI也好,都是在做猜測。
沒有假設,就沒有預測
預測必然建立在某些假設上,假設也當然會影響預測的本質與準確。而預測講簡白了,也就是猜測—-猜測當然沒有全部或永遠對的時候。