這篇文章主要目的在於把網路上找得到的泰文語料庫做全局的綜覽,使用幾個指標去評分每個語料庫的特色。當你找到適合自己的語料庫系統後,可以再到個別語料庫的詳細使用說明,我會再將個別語料庫的使用說明一一整理成單獨的貼文。

語料庫(Corpus)是什麼?

簡單來說,可以把語料庫想成是一間圖書館,裡面收集著大量的句子,這些句子可能是從網路上抓下來的、從出版的書裡擷取下來的、甚至是從影片中取下來的。除了收集大量資料以外,語料庫還提供一個搜尋系統,假設我是一個正在學中文的外國人,然後我今天剛好在課本上學到了「發揮」這個中文詞,學到「每個人都應該好好發揮自己的才能」,但我還想知道除了「發揮才能」之外,「發揮」的後面還可以接什麼名詞,這時候我就可以使用語料庫的搜尋介面,查詢所有包含「發揮」這兩個字的句子,那麼我就可以一次學到很多「發揮」的用法,像是「發揮愛心」、「發揮功能」、「發揮正義感」等等。

所以語料庫除了能給語言學家用來做研究以外,還可以作為一個對外語學習者非常好的學習輔助工具:一般的字典給你的是一個詞的意義跟少量的例句,而語料庫能給你的是關於一個詞的大量真實使用的例句。

下面我會將網路上能找到的語料庫系統分成單語語料庫和雙語語料庫,單語語料庫的就是如果我下一個泰文詞的搜尋,他只會給出所有包含該泰文詞的泰文句子。而雙語語料庫就是如果我下一個泰文詞的搜尋,他除了會給出包含該泰文詞的泰文句子之外,還會給出另一個指定的語言中相對應的句子。

單語語料庫

泰國國家語料庫 Thai National Corpus (第一版)

泰國國家語料庫 (TNC) 第一版介面截圖

連結:https://cqpweb.lancs.ac.uk/tncv1](https://cqpweb.lancs.ac.uk/tncv1

是否需要註冊:是
總收集詞數:約3400萬個詞
介面美觀:看起來很複雜
是否支援詞組搜尋:是
是否支援搭配詞搜尋:是
是否支援CQL搜尋:是

泰國國家語料庫 Thai National Corpus (第三版)

泰國國家語料庫 (TNC) 第三版介面截圖

連結:http://www.arts.chula.ac.th/~ling/tnc3/

是否需要註冊:否
總收集詞數:約3000萬個詞
介面美觀:較第一版簡潔
是否支援詞組搜尋:否
是否支援搭配詞搜尋:是
是否支援CQL搜尋:否

Twitter語料庫

雙語語料庫