作者: Stefan Th. Gries
出版年: 2013
書名: Statistics for Linguistics with R: A Practical Introduction
作者: Baayen
出版年: 2013
書名: Analyzing linguistic data - a practical introduction to satistics using R
初衷
生活中有大量的訊息,我們往往希望能從這些雜亂的訊息中解讀出有用的資訊甚至是預測未來的趨勢。舉例來說,政府統計全台灣各縣市的人均收入,也許按照年齡層、性別、職業別區份,可以讓人民更了解台灣的經濟現況以及不同群體之間的差異性。
名詞解釋
- 母體 Population: 宇集
- 參數 Parameter: 關於母體的描述統計量,例如母體平均數、母體標準差,或者關於母體的Data model的參數
- 樣本 Sample: 母體的子集合
- 統計值 Statistics: 關於樣本的描述統計量
- Data Model: 用以產生新Data的模型,通常是未知,因此需要透過推論來得出。
- Likelihood: 用來推論Data model時會有各種假說,透過計算各個假說的Likelihood,來找出符合現有證據最可能為真的假說
描述統計學
對於蒐集到的一組資料,要如何描述這組資料的特徵?有哪些特徵可以識別一組資料?
平均數
中數
眾數
range
Q3 - Q1
變異數
標準差
推論統計學
從蒐集到的樣本,我們希望可以推測出母體的狀態
Maximum Likelihood Estimation
Maximum likelihood estimation is a method that determines values for the parameters of a model. The parameter values are found such that they maximise the likelihood that the process described by the model produced the data that were actually observed.
Probability concepts explained: Maximum likelihood estimation