以下參考連結皆來自 CWB官網的References段落

留言與分享

泰文語料庫總整理

分類 泰語

這篇文章主要目的在於把網路上找得到的泰文語料庫做全局的綜覽,使用幾個指標去評分每個語料庫的特色。當你找到適合自己的語料庫系統後,可以再到個別語料庫的詳細使用說明,我會再將個別語料庫的使用說明一一整理成單獨的貼文。
繼續閱讀

今天想跟大家分享另外一個學泰文的資源。常常我們學到一個新單字的時候,可能意思知道了,字典上也有兩三句例句,但實際上還是不太會用。

這時候除了google之外,我們還可以使用別人所開發的語料庫。最近我發現了一個由朱拉隆功大學語言學所建置的語料庫系統,這個系統收集了大量來自泰國twitter上的文章,我們就可以輸入一個剛學到的單字,他就會跑出所有有用到這個單字上的句子,也因此我們一次就有超多例句可以一個一個看,而且更寶貴的是,這些句子都是泰國人日常生活實際在使用的句子。

雖然介面看起來超級陽春,但還是來跟大家示範一下如何使用這個介面。
繼續閱讀

CH2 三個重要方法

corpus 的定義

the notion of “corpus” refers to a machine-readable collection of (spoken or written) texts that were produced in a natural communicative setting, and the collection of texts is compiled with the intention (I) to be representative and balanced with respe<:t to a particular linguistic variety or register or genre and (2) to be analyzed linguistically.

各種 corpora

general vs. specific

raw vs. annotated

幾種annoation:

  • lemmatized
  • POS tag
  • morphological
  • phonological
  • syntactically parsed
  • etc.

    歷時 vs. 共時

    靜態 vs. 動態

corpora能提供什麼資訊

簡單來說就是頻率:

  • 各種pattern的出現頻率
  • pattern之間的共同出現頻率

Frequency

詞的頻率。

但什麼是詞?不同語言中的詞。

type vs. token

從頻率能看出些什麼 (p. 14)

Collocation

Lexical Co-occurence

三種co-occurence

  • collocation (本篇重點)
  • colligation
  • collostruction

應用

  • 語言教學
  • 語義學

Concordance

(Lexico-)Grammatical Co-occurence

相較於collocation,concordance關注的是一個詞所處於的更大的脈絡。

留言與分享

  • 第 1 頁 共 1 頁
作者的圖片

puerdon

學習筆記 / 資源整理 / 雜物堆放


語言學研究