[讀書筆記] Statistics for linguistists with R

3月 01, 2019 分類統計

作者: Stefan Th. Gries
出版年: 2013
書名: Statistics for Linguistics with R: A Practical Introduction

本書結構

Ch 1: 經驗研究的基礎
Ch 2: R
Ch 3: 描述統計
Ch 4: 分析統計
Ch 5: Selected multifactorial and multivariate methods

CH1: 經驗性研究基礎

科學量性研究的三大目標

描述針對某現象的資料 -> Ch 2
提出假說，解釋資料何以如此
預測 (非必要)

量性研究的設計與邏輯

量性研究報告的一般形式
- Introduction
- methods
- results
- discussion

流程

3.1 初步探索

針對感興趣的現象的進行描述與文獻回顧 (通常寫在introduction)
(numeric/categorial) variables: 影響著結果的變因，例如現在感興趣的主題為使用「把」字句的動詞，那麼可能的variables可以是句子長度、動詞及物性、主語的Animacy、說話場景等等。一個variable包含兩個以上的levels (或稱作states)。
列出不同文獻對不同 variables 的探討

3.2 提出假說&可操作化(operationalization)流程階段 (p. 10-20)

步驟一：以文字形式提出假說

何謂假說？

不能只針對單一特定事件
必須要有條件句(If…then…)的結構
可否證性

兩種假說

第一種假說的形式：
- 為 IV 和 DV 之間的關係
- 具有「若 IV 則 DV」的形式
  - 通常IV是導致DV變化的原因
- 區分 confounding v. moderator variables:
  - confounding v: correlated with
  - moderator v: often extrandeous to the initial design of a sudy; influence the relationship between IV/DV
第二種假說的形式：沒有IV，僅只有針對依變數(DV)的值、變異與分布狀況提出假說

步驟二：(在開始收集資料前!)列出可否證該假說的條件 -> 虛無假說

除了自己提出的假說 H1 (alternative hypothesis)
還要提出一個與H1互補(通常是在H1加上否定)的虛無假說 H0 (null hypothesis)
H0和H1必須涵蓋所有的樣本空間，也就是所有結果
在大多數的情況下
- 第一種假說的H0會是：「IV和DV之間沒有關係，就算有也只是因為偶然」
- 第二種假說的H0會是：「DV只是隨機分佈，或是常態分佈」
區分兩種H1: directional vs. non-directional:
- directional H1: 不只是宣稱 DV 和 IV 之間有某種相關性，更宣稱這樣的相關性有「方向性」，也就是「如果IV如何如何，DV就會比較常出現」，或者是「如果IV如何如何，DV就會比較少出現」
- non-directional H1: 這樣的假說只是宣稱存在著某種差別或相關性，但沒有指定這種差別或相關性的方向
  - 切記，H1, H0 假說的提出一定要在著手收集資料之前先做好
  - 這部分通常寫在introduction，或者是method的一開頭
    -
    步驟三：operationalizing the variables

變數究竟應該怎麼去搜集？去計算？要去觀察哪些東西？

根據 level of measurement 可分成：

nominal (binary) variable: 只有是或否
categorial: 離散狀態的variable，狀態間無法進行排序，例如：性別變數
ordinal: 連續狀態的variable，狀態間可進行排序，但之間做乘積沒有意義
ratio: 連續狀態的variable，且之間做乘積有意義

步驟四：Scientific hypotheses in statistical/mathematical form

3.3 收集資料與儲存階段

這個步驟要考量的是抽樣樣本是否具有代表性(因為我們不可能得到整個母體)。

representive: 母體的不同部分都在樣本中
balanced: 母體的不同部分的大小反映在樣本中
例如想要觀察台北青少年在口語中使用「不然勒」的情況，我們必須要去取得青少年跟同儕、老師、家長、陌生人對話地語料才能符合代表性的要求，而我們採收的語料中跟不同對象對話的數量，也必須符合青少年在日常生活中與這些對象實際對話的比例，才能符合平衡原則。

The decision

作者的圖片

puerdon

學習筆記 / 資源整理 / 雜物堆放

語言學研究