今天想跟大家分享另外一個學泰文的資源。常常我們學到一個新單字的時候,可能意思知道了,字典上也有兩三句例句,但實際上還是不太會用。

這時候除了google之外,我們還可以使用別人所開發的語料庫。最近我發現了一個由朱拉隆功大學語言學所建置的語料庫系統,這個系統收集了大量來自泰國twitter上的文章,我們就可以輸入一個剛學到的單字,他就會跑出所有有用到這個單字上的句子,也因此我們一次就有超多例句可以一個一個看,而且更寶貴的是,這些句子都是泰國人日常生活實際在使用的句子。

雖然介面看起來超級陽春,但還是來跟大家示範一下如何使用這個介面。

操作步驟

圖解操作步驟 Step 1 - 4

step 1: 進入 http://161.200.50.2/concord

step 2: 在 “Input Thai word”中輸入你想查的單字,這裡我選一個我剛學泰文時也不太會用的字,ค่อนข้าง (比較…; 相當…)。

step 3: “No. of samples” 則是選擇你想要系統回傳幾個句子給你,如果你只是想稍微看一下,可以選”5”或”20”,如果你想仔細一一研讀,可以選”50”或”100”。

step 4: 都選好了之後,點擊”RUN”。

圖解操作步驟 Step 5

step 5: 就可以看到twitter上的泰國用戶都怎麼用你查的單字。

如何從搜尋結果中學泰文?以ค่อนข้าง為例

舉例來說,我就可以查到 ค่อนข้าง 的幾個用法:

  • หา”ค่อนข้าง”ยาก (“比較”難找到的)
  • “ค่อนข้าง”มั่นใจว่านี่ไม่ได้หมายถึงดารา (可以”比較”確定說這不是在指明星)
  • เป็นความสัมพันธ์ที่”ค่อนข้าง”อธิบายยาก (是段”比較”難解釋的關係)
  • “ค่อนข้าง”แอนตี้ศัลยกรรม (“比較”反對整形)

光是看到這四個句子就可以學很多東西,除了新學到了幾個”比較怎麼樣怎麼樣”的用法之外,還可以學到其他的單字,像是看到最後一個例子,這裡的「反對」使用了來自英文的外來語 anti (แอนตี้),馬上學到一個實用的日常網路用語。


這個語料庫專案是來自TLTK (Thai Language Toolkit) 這個python套件的一部分,這個套件是專門用在泰文的自然語言處理,像是處理泰文斷詞、泰文轉換為IPA、泰文命名實體辨識、泰文word2vector。

套件連結:https://pypi.org/project/tltk/