Simpson’s Paradox
####Berkeley Grad Admission: Sexual Discrimination
Who is No. 1?
Sophomore Jinx/slump
Lesson
- 局部關係有可能與整體關係完全相反(如女性錄取率在各所都高於男性錄取率,但整體男性錄取率高於女性)
- 比例/百分比 只是資料的一個面向。個數,更重要的可能的干擾因子(confounding factor, 如系所)不見得就在原始資料/報告中,需要深度思考來發掘。所謂的深度(機器)學習一般並無法主動發現。
- 辛普森弔詭並不是一個資料/分析錯誤的結果,而是資料本身關聯複雜性的一個呈現。也提醒我們,事情的真相與變數的關聯可能有相當的複雜性。面對這樣的狀況,希冀簡單的解釋,單純的關聯能夠適用一切問題,不只是過份樂觀,甚至是自請災禍了。