[讀書筆記] Statistics for linguistists with R
作者: Stefan Th. Gries
出版年: 2013
書名: Statistics for Linguistics with R: A Practical Introduction
本書結構
Ch 1: 經驗研究的基礎
Ch 2: R
Ch 3: 描述統計
Ch 4: 分析統計
Ch 5: Selected multifactorial and multivariate methods
CH1: 經驗性研究基礎
科學量性研究的三大目標
- 描述針對某現象的資料 -> Ch 2
- 提出假說,解釋資料何以如此
- 預測 (非必要)
量性研究的設計與邏輯
- 量性研究報告的一般形式
- Introduction
- methods
- results
- discussion
流程
3.1 初步探索
- 針對感興趣的現象的進行描述與文獻回顧 (通常寫在introduction)
- (numeric/categorial) variables: 影響著結果的變因,例如現在感興趣的主題為使用「把」字句的動詞,那麼可能的variables可以是句子長度、動詞及物性、主語的Animacy、說話場景等等。一個variable包含兩個以上的levels (或稱作states)。
- 列出不同文獻對不同 variables 的探討
3.2 提出假說&可操作化(operationalization)流程階段 (p. 10-20)
步驟一:以文字形式提出假說
何謂假說?
- 不能只針對單一特定事件
- 必須要有條件句(If…then…)的結構
- 可否證性
兩種假說
- 第一種假說的形式:
- 為 IV 和 DV 之間的關係
- 具有「若 IV 則 DV」的形式
- 通常IV是導致DV變化的原因
- 區分 confounding v. moderator variables:
- confounding v: correlated with
- moderator v: often extrandeous to the initial design of a sudy; influence the relationship between IV/DV
- 第二種假說的形式:沒有IV,僅只有針對依變數(DV)的值、變異與分布狀況提出假說
步驟二:(在開始收集資料前!)列出可否證該假說的條件 -> 虛無假說
- 除了自己提出的假說 H1 (alternative hypothesis)
- 還要提出一個與H1互補(通常是在H1加上否定)的虛無假說 H0 (null hypothesis)
- H0和H1必須涵蓋所有的樣本空間,也就是所有結果
- 在大多數的情況下
- 第一種假說的H0會是:「IV和DV之間沒有關係,就算有也只是因為偶然」
- 第二種假說的H0會是:「DV只是隨機分佈,或是常態分佈」
- 區分兩種H1: directional vs. non-directional:
變數究竟應該怎麼去搜集?去計算?要去觀察哪些東西?
根據 level of measurement 可分成:
nominal (binary) variable: 只有是或否
categorial: 離散狀態的variable,狀態間無法進行排序,例如:性別變數
ordinal: 連續狀態的variable,狀態間可進行排序,但之間做乘積沒有意義
ratio: 連續狀態的variable,且之間做乘積有意義
步驟四:Scientific hypotheses in statistical/mathematical form
3.3 收集資料與儲存階段
這個步驟要考量的是抽樣樣本是否具有代表性(因為我們不可能得到整個母體)。
- representive: 母體的不同部分都在樣本中
- balanced: 母體的不同部分的大小反映在樣本中
- 例如想要觀察台北青少年在口語中使用「不然勒」的情況,我們必須要去取得青少年跟同儕、老師、家長、陌生人對話地語料才能符合代表性的要求,而我們採收的語料中跟不同對象對話的數量,也必須符合青少年在日常生活中與這些對象實際對話的比例,才能符合平衡原則。