芋傳媒 TaroNews - 台灣觀點.芋見真相

台灣客語語料庫 預計2022年上線

圖片來源:中央社

客委會今天表示,透過台灣客語語料庫,除了能將台灣客語數位化典藏外,未來結合 AI 還能有更多應用;這是全世界第一個由官方帶頭建置的客語語料庫,預計 2022 年正式上線。

客家委員會今天舉辦「台灣客語語料庫建置階段成果發表會」,已處理包含書面 500 萬字、口語 10 萬筆資料,除保存台灣客語、進行數位化典藏外,更有機會將客語語料結合 AI,能在教育、研究及翻譯上有更多應用,這是全台、也是全世界第一個由官方帶頭建置的客語語料庫。

客委會主委李永得表示,語料庫是透過政治大學的團隊,從語言、資訊工程、傳播領域等專業結合;未來客語語料搭配AI可以應用在翻譯上,若有外國人來到客家庄,透過翻譯都可以走得通,讓客家話可以和全世界的語言對話。

政大英國語文學系特聘教授賴惠玲告訴中央社記者,她一直以來都在從事客語語料的研究,但與公部門合作,最重要的是能取得授權,讓這些內容能夠公開應用;現在這個階段是在打基礎,累積文字和口語的材料後,未來在教學、語音合成、語音辨識或翻譯都能做到。

客委會表示,台灣客語語料庫耗資約新台幣 6000 萬元,已經完成書面語料授權 316 筆出版品、 149 筆單篇文章,並完成語料庫斷詞系統、權威詞控管系統與後台管理初步規劃,預計於民國 111 年底正式上線。

(新聞資料來源 : 中央社)

邀請您加入「芋傳媒」的粉絲專頁
邀請您加入「芋生活」的粉絲專頁
我知道了

評論被關閉。