作者: Stefan Th. Gries
出版年: 2013
書名: Statistics for Linguistics with R: A Practical Introduction

本書結構

Ch 1: 經驗研究的基礎
Ch 2: R
Ch 3: 描述統計
Ch 4: 分析統計
Ch 5: Selected multifactorial and multivariate methods

CH1: 經驗性研究基礎

科學量性研究的三大目標

  1. 描述針對某現象的資料 -> Ch 2
  2. 提出假說,解釋資料何以如此
  3. 預測 (非必要)

量性研究的設計與邏輯

  • 量性研究報告的一般形式
    • Introduction
    • methods
    • results
    • discussion

流程

3.1 初步探索

  • 針對感興趣的現象的進行描述與文獻回顧 (通常寫在introduction)
  • (numeric/categorial) variables: 影響著結果的變因,例如現在感興趣的主題為使用「把」字句的動詞,那麼可能的variables可以是句子長度、動詞及物性、主語的Animacy、說話場景等等。一個variable包含兩個以上的levels (或稱作states)。
  • 列出不同文獻對不同 variables 的探討

3.2 提出假說&可操作化(operationalization)流程階段 (p. 10-20)

步驟一:以文字形式提出假說

何謂假說?

  • 不能只針對單一特定事件
  • 必須要有條件句(If…then…)的結構
  • 可否證性

兩種假說

  • 第一種假說的形式:
    • 為 IV 和 DV 之間的關係
    • 具有「若 IV 則 DV」的形式
      • 通常IV是導致DV變化的原因
    • 區分 confounding v. moderator variables:
      • confounding v: correlated with
      • moderator v: often extrandeous to the initial design of a sudy; influence the relationship between IV/DV
  • 第二種假說的形式:沒有IV,僅只有針對依變數(DV)的值、變異與分布狀況提出假說
步驟二:(在開始收集資料前!)列出可否證該假說的條件 -> 虛無假說
  • 除了自己提出的假說 H1 (alternative hypothesis)
  • 還要提出一個與H1互補(通常是在H1加上否定)的虛無假說 H0 (null hypothesis)
  • H0和H1必須涵蓋所有的樣本空間,也就是所有結果
  • 在大多數的情況下
    • 第一種假說的H0會是:「IV和DV之間沒有關係,就算有也只是因為偶然」
    • 第二種假說的H0會是:「DV只是隨機分佈,或是常態分佈」
  • 區分兩種H1: directional vs. non-directional:
    • directional H1: 不只是宣稱 DV 和 IV 之間有某種相關性,更宣稱這樣的相關性有「方向性」,也就是「如果IV如何如何,DV就會比較常出現」,或者是「如果IV如何如何,DV就會比較少出現
    • non-directional H1: 這樣的假說只是宣稱存在著某種差別或相關性,但沒有指定這種差別或相關性的方向
      • 切記,H1, H0 假說的提出一定要在著手收集資料之前先做好
      • 這部分通常寫在introduction,或者是method的一開頭
        -
        步驟三:operationalizing the variables

變數究竟應該怎麼去搜集?去計算?要去觀察哪些東西?

根據 level of measurement 可分成:

  • nominal (binary) variable: 只有是或否

  • categorial: 離散狀態的variable,狀態間無法進行排序,例如:性別變數

  • ordinal: 連續狀態的variable,狀態間可進行排序,但之間做乘積沒有意義

  • ratio: 連續狀態的variable,且之間做乘積有意義

步驟四:Scientific hypotheses in statistical/mathematical form

3.3 收集資料與儲存階段

這個步驟要考量的是抽樣樣本是否具有代表性(因為我們不可能得到整個母體)。

  • representive: 母體的不同部分都在樣本中
  • balanced: 母體的不同部分的大小反映在樣本中
  • 例如想要觀察台北青少年在口語中使用「不然勒」的情況,我們必須要去取得青少年跟同儕、老師、家長、陌生人對話地語料才能符合代表性的要求,而我們採收的語料中跟不同對象對話的數量,也必須符合青少年在日常生活中與這些對象實際對話的比例,才能符合平衡原則。

The decision