作者: Stefan Th. Gries
出版年: 2013
書名: Statistics for Linguistics with R: A Practical Introduction
作者: Baayen
出版年: 2013
書名: Analyzing linguistic data - a practical introduction to satistics using R
似然率和機率是不同的概念。
名詞定義
- 假說 hypothesis: 一個假說由欲估計的data model的一組parameter所構成。
提出假說的目的在於根據觀察得到的資料去回推現象背後的未知模型。一
機率:在給定的一假說(資料分布)之下,抽樣得到某特徵的資料的機率。關注的是資料。
似然率:在給定資料的條件下,去度量不同假說成立的可能性。關注的是假說。似然率的概念之所以與機率不同,是因為對於一組觀察到的資料而言,會有無窮多個假說,我們不可能全部列舉。但是對於機率而言,一個檢驗的所有可能結果必須先定義好,才能讓所有可能結果的機率加總等於一。
Maximum Likelihood Estimation
根據得到的資料,從眾多假說中找出Likelihood最高的假說,來作為Parameter。
likelihood是用來看假說的可能性。
參考資料
初衷
生活中有大量的訊息,我們往往希望能從這些雜亂的訊息中解讀出有用的資訊甚至是預測未來的趨勢。舉例來說,政府統計全台灣各縣市的人均收入,也許按照年齡層、性別、職業別區份,可以讓人民更了解台灣的經濟現況以及不同群體之間的差異性。
名詞解釋
- 母體 Population: 宇集
- 參數 Parameter: 關於母體的描述統計量,例如母體平均數、母體標準差,或者關於母體的Data model的參數
- 樣本 Sample: 母體的子集合
- 統計值 Statistics: 關於樣本的描述統計量
- Data Model: 用以產生新Data的模型,通常是未知,因此需要透過推論來得出。
- Likelihood: 用來推論Data model時會有各種假說,透過計算各個假說的Likelihood,來找出符合現有證據最可能為真的假說
描述統計學
對於蒐集到的一組資料,要如何描述這組資料的特徵?有哪些特徵可以識別一組資料?
平均數
中數
眾數
range
Q3 - Q1
變異數
標準差
推論統計學
從蒐集到的樣本,我們希望可以推測出母體的狀態
Maximum Likelihood Estimation
Maximum likelihood estimation is a method that determines values for the parameters of a model. The parameter values are found such that they maximise the likelihood that the process described by the model produced the data that were actually observed.
Probability concepts explained: Maximum likelihood estimation