Prelude to Data Analysis 2018


  • Home

  • About

  • Tags

  • Categories

  • Archives

Week 8.1. Midterm Recap

Posted on 2018-10-29
Words count in article: 129 | Reading time ≈ 1

期中報告

  • 主題:本課程進行至此的一個小評,(建議)包含:
    • 摘要:總評
    • 印象深刻主題:課堂介紹 vs. 自尋資訊
    • 讚點:課程/導引不錯的點
    • 建議/不讚點:可改進、不優的部份
    • 結論:小結。Take-home (brief) comment.
  • 份量:最多 A4兩頁。字體約 12-14pt.
  • 繳交:11/11 2359 前以email寄至chtsao@gms.ndhu.edu.tw
    pdf format is preferred. 若你有另外比較喜歡的方式,如blog, youtube,
    影像等方式也歡迎。

Randomized Response

Survey for embarassing questions

Week 7 Intelligence of Dogs

Posted on 2018-10-22
Words count in article: 72 | Reading time ≈ 1

Motivating question: 哪種狗最聰明?哪種狗最不聰明?

  • Intelligence of Dogs (A short summary of the research of Stanley Cohen)
  • An evidence-based decision assistance model for predicting training outcome in juvenile guide dogs. Harvey, et al (2017). PLOS one.
  • 狗到底有多聰明?主人和科學家想的不一樣 @紐約時報中文網

Week 6 Averagness

Posted on 2018-10-22
Words count in article: 230 | Reading time ≈ 1

平均就是美

美與吸引力是許多人關注的焦點,在流行時尚界如此,學術界也一樣。透過美,特別是平均臉,這個主題的探討。我們一起來窺探並嘗試知道

  • 美/beauty/facial attractiveness是什麼?
  • 美不是特別漂亮?怎麼會這樣想?
  • 有圖有真相 !?。
  • 探討類似問題的架構/想法
  • 資料收集與資料分析的角色與功能。Analysis: What does it mean?

訊息區分

  • 網路/新聞:快速方便但不見得正確,準確;作為某種人氣參考起點
  • wiki, 科普; 學校,研究機構科普報導
  • 書籍
  • 期刊論文,研討會論文、研究報告
  • 背景:贊助、互相哄抬、敵對等利益關係

參考範例

  • 泛科學報導
  • 妞新聞

Keywords/Links

  • Google: 平均臉
  • Averageness: wiki
  • facelab.org,faceresearch.org
  • beautycheck.org
  • How your brain decides what is beautiful@TED ,

    A Darwinian theory of beauty @TED

w5-2 Expectation

Posted on 2018-10-22
Words count in article: 115 | Reading time ≈ 1

Expectation as a fair price

  • Expectation ~ weighted average (over probability) of possible outcomes/values
  • Probability (say of a Bernoulli random variable, a coin toss, X=1 if head and X=0 if tail) as a probability
    $$P(X=1) = E(X) = 0 P(X=0)+ 1 P(X=1).$$
  • Long-run frequency interpretation of a probability
  • Random vending machine: 是否可接受這樣的販賣機取決於你是否是一個經常使用者。一次,甚至少數次,的使用不見得可以感覺到機率的作用。
  • Gambler’s ruin theorem
  • St. Petersburg’s paradox

Week 5 Simpson's paradox

Posted on 2018-10-22
Words count in article: 233 | Reading time ≈ 1

Simpson’s Paradox

####Berkeley Grad Admission: Sexual Discrimination

Who is No. 1?

Sophomore Jinx/slump

Lesson

  • 局部關係有可能與整體關係完全相反(如女性錄取率在各所都高於男性錄取率,但整體男性錄取率高於女性)
  • 比例/百分比 只是資料的一個面向。個數,更重要的可能的干擾因子(confounding factor, 如系所)不見得就在原始資料/報告中,需要深度思考來發掘。所謂的深度(機器)學習一般並無法主動發現。
  • 辛普森弔詭並不是一個資料/分析錯誤的結果,而是資料本身關聯複雜性的一個呈現。也提醒我們,事情的真相與變數的關聯可能有相當的複雜性。面對這樣的狀況,希冀簡單的解釋,單純的關聯能夠適用一切問題,不只是過份樂觀,甚至是自請災禍了。

Week 4 Conditional Probability and Bayes Theorem

Posted on 2018-10-15
Words count in article: 154 | Reading time ≈ 1

Motivating Questions

  • Fu and Dinner?: 她對我有Fu嗎?當她接受了我們一起晚餐的邀請時,對我有Fu的機率又有何變化?$P(FU), P(FU|D), P(D|FU)$ 的差異與關聯。
  • Diagnosis (+/-) and Disease (DS/NDS):(以某種程序或儀器)檢測判斷為有病,真正有病的機會是什麼?$P(D|+), P(D), P(+|D)$ 的差異與關聯。

Probability

$$P(FU), P(DS)$$

Conditional probability

$$P(FU|D), P(DS|+).$$
Note that $P(FU|D) \neq P(D|FU)$. Prosecutor’s Fallacy.

Bayes Theorem

Let $A, B$ be two events and $P(A), P(B)>0$ then
$$ P(A|B)= \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^c)P(A^c).}$$

Week 3 Data Analysis 之前後上下

Posted on 2018-10-15
Words count in article: 67 | Reading time ≈ 1

DA modules

Start with some questions or problems in mind

=> Collect Data
=> Exploratory data analysis (Data Visualization and various numerical summaries)
=> Data analysis (Statistics, Machine learning, DL, AI etc)
=> Inter-discussion/Joint work with subject field professionals
=> Scientific report/ Media report

Not all data are (created) equal

Controlled experiment vs. observational study

Examples:

  • Vitamin C ~ Cold
  • SKIII ~ whitening
  • Drinking ~ Lung Cancer

Lurking/Confounding variable

Week 2 資料與資料分析概觀

Posted on 2018-10-07
Words count in article: 451 | Reading time ≈ 1

一般來說,我們可以將一個資料 (data set)想成一個 Excel的檔案。其中的n筆資料包含了p個變數名稱。例如:班級成績資料,其中包含了 n 位同學的 p 科成績(如國文、英文、數學等);一般還會有學生姓名及學號等欄位以方便登錄區別。

雖然資料可以想像為真實世界的一個照片或側寫,因此角度與取景不同可能會影響其反應真實世界的有效性。但資料本身未嘗不是如此。不論是從數據面或圖像面,現代的資料常常是龐大而難以掌握。正因如此,我們提示幾個資料/資料分析的本質:

瞎子摸象

Data Summary (Numerical and graphical) 如同瞎子摸象,應要隨時提醒自己不過是以管窺豹,以蠡測海。
由於複雜與龐大,資料常常需要被壓縮或選擇性地呈現。數據面:如平均、標準差、中位數、5-point summary 等 summary statistics; 圖形面:box plot, histogram, pie-chart 等。更不用說高維度的資料的資料壓縮。

看著照後鏡開車

基本上我們常常將資料分析後用於推論。本質上,是以已知來推測未知;由過去推測未來;或由訓練樣本來推測測驗樣本。以傳統統計的語言來說,其實也就是樣本以及母體的區別。預測也好,所謂的AI也好,都是在做猜測。

沒有假設,就沒有預測

預測必然建立在某些假設上,假設也當然會影響預測的本質與準確。而預測講簡白了,也就是猜測—-猜測當然沒有全部或永遠對的時候。

Week 1: Overview

Posted on 2018-09-25 | In class , announcement
Words count in article: 227 | Reading time ≈ 1

歡迎來到 Preda 2018 (Fall)!

這是一個資料的世界–各式各樣資料無所不在,而其中也蘊藏了真實乃至虛擬世界的各種訊息。實境虛境的界線早已模糊,先知與謊騙者難以區分;雖有時可見光明,但闇黑塵囂籠罩—這是一個蠻荒的世界!

Syllabus 教學計畫表

起點

  1. About me: 我的角度/偏見
  2. Prerequisites: Almost surely nontechnical (Calculus, Linear Algebra, Probability, Statistics). 一些高中數學以及不是很討厭數學,統計的態度就是很好的準備。如果你有個喜歡探索,喜歡接觸新奇/不熟悉的事物的心智,你應該會享受這趟心智輕旅行。
  3. Scope of the course: 資料/資料分析之 聽 說 讀 寫

引想問題

Data Analysis: What? Why and How?

資料分析是什麼?為何我該了解它?而它又會如何影響我?

12
Kno Tsao

Kno Tsao

Course Web Preda 2018

19 posts
2 categories
3 tags
RSS
© 2018 Kno Tsao | Site words total count: 3.6k
Powered by Hexo
|
Theme — NexT.Pisces v5.1.4