台語文語料處理kah線頂資源研究

台語文語料處理kah線頂資源研究
定價:290
NT $ 261
  • 作者:楊允言
  • 出版社:亞細亞國際傳播社
  • 出版日期:2014-10-01
  • 語言:繁體中文
  • ISBN10:9868541891
  • ISBN13:9789868541894
  • 裝訂:平裝 / 174頁 / 25k正 / 14.8 x 21 cm / 普通級 / 單色印刷 / 初版
 

內容簡介

  弱勢語言當自強!網路時代,語言資源的基礎建設急待建立,科技順風車,是語言復振的一劑強心針。

  本書為台灣第一本針對台語文語料處理、書寫及電腦線上資源進行整理探討的書籍。內容包含:台語文相關背景介紹:從全世界的角度來看台語使用的地理分佈、討論台語的名稱問題、說明台語的處境、危機與轉機;台語文書寫的文字系統:台語文處理的工具,包括白話字拼字檢查;如何實作將有複雜的連讀變調的台語文轉成聲音的線上系統、台語文轉音系統。最後針對目前網路上可運用的台語文相關資源作介紹及整理,希望能對想要參與台語文事工或相關研究者有所幫助,期望後起之秀能以此基礎繼續向前。

本書特色

  ◎國內首本結合台語文語言科技及文獻的書籍。
  ◎國內首本有系統地整理台語文線上資料,適合想了解台語文網路資源的讀者。
  ◎專業台語文教學者、研究學者及欲學習台語文者必備書籍。
 

作者介紹

作者簡介

楊允言 Iu Ún-giân


  生於1966年,台大資訊工程所博士,目前任職於台中教育大學台灣語文學系專任助理教授,也是社團法人台灣羅馬字協會常務理事。台北人,有一段時間住在花蓮,喜歡坐在海邊看太平洋,現居台中。較年輕時爬過30座百岳,2008年參加NeverStop 300K,且在20小時期限內完賽。

  1987年大學三年級,開始做台語文功課
  1992年擔任學生台灣語文促進會第一任會長,主編《台語學生》雜誌
  2000年開發台華線頂辭典
  2003年建立台語文語詞檢索系統
  2005年開發台語變調處理系統
  2007年建立台語文記憶,獲得國賽台語字音字形社會組第一名
  2008年教育部表揚推展母語個人傑出貢獻獎
  2011年台北西區扶輪社主辦的台灣文化獎
  
  編著:
  《台語這條路─台文工作者訪談錄》(1995,台笠)
  《台語文運動訪談暨史料彙編》(2008,國史館)
  《台語白話字文學選集》《台譯文學》分冊(2011,文學館)
  
  翻寫:
  《台灣七色記》ê《藍海夢》(2013,真平,姚嘉文原著)
  
 

推薦序
  
運用語言科技來補破網

  
  強勢語文霸佔語言市場,壓制弱勢語文,定定造成弱勢語言無地出聲,bē當hông看著身影,甚至造成語言流失。語言流失就ná親像漁網仔破空仝款,拄開始只是裂一細縫,若無要無緊,漁網仔會愈破愈大空,到尾仔想欲挽救mā袂赴。欲補破網著愛揣家私。語言科技(languagetechnology)是真適合當做語言復興ê家私。世界上,有愈來愈濟ê語言復振,運用語言科技展開語言ê研究、記錄kah教學。
  
  弱勢語言需要建立語言資源ê基礎建設,譬如講:多模式ê語料庫、電腦自動分析工具、文字化kah數位編碼、語音合成等等。Án-ne咱就會當kā語言資料做記錄、註解、統計kah查詢。允言兄這本冊研究台語文ê語料處理kah線頂資源,提供咱修補語言破空ê重要工具,對咱人話ê保存kah發展有真大ê貢獻。伊m̄-nā處理台語文字化ê議題,koh對變調、台語詞性標記、雙文字轉換系統提出具體ê處理方法。台語已經有袂少ê線頂資源,m̄-koh一直欠缺有系統ê整理,這本冊整理ê線頂資源,對台語文ê研究、教學kah學習攏有真大ê幫助。
  
  允言兄長期投入台語文運動,真早就建立台語文數位化ê語料庫,免費提供社會大眾kah研究者tī線頂查詢。M̄-koh,一般人kan-ta使用,可能m̄知影背後語言科技ê技術kah原理。想欲瞭解台語文有啥物線頂資源kah語言科技通用ê讀者,這本冊真值得參考。
  
  語言學ê研究者有一个定著愛處理ê倫理問題:咱提著語言研究ê語料,chiaê語料beh按怎進一步為語言保存kah復興有所貢獻?Tī這方面,允言兄有真好ê示範。伊kā語言科技kah語言文獻做結合,用「傳遞成果」ê角度,將收集來ê文獻轉化做線頂ê資源,對語言學習、語言記錄kah保存攏有幫贊。
  
  這本冊記錄台語文語料處理ê方法,koh有提供台語文線頂資源予咱參考。語料庫kah線頂資源是台語文現代化ê基礎工程。咱除了需要kā台語文數位化,koh需要有實際ê讀寫實踐,台語才會行出數位博物館,變做有性命ê語言。
  
國立台東大學華語文學系教授張學謙
  
導讀

kah說明

  
  這本冊分做七章,第一章導論是台語文相關ê背景介紹,包括台灣多元ê語言現況,針對台語ê部分,kohùi世界ê角度來看咱人話(閩南語)使用ê地理分佈,然後討論台語ê名稱問題,並且說明台語ê處境、轉機kah危機。紲落來介紹台語文書寫ê文字系統,包括羅馬字kah漢字兩大系統,羅馬字會以白話字為主,白話字kah漢字是咱beh處理ê文字。Koh來針對台語文語料處理,tībeh做進前,提出對這項工課ê基本了解、心理準備kah建議。
  
  第二章討論白話字按怎處理,因為Unicodeê編碼政策會使kā兩、三个符號鬥做一个符號,所以有ê白話字符號êUnicode編碼會使有兩款表示方式,可比“á”,有可能是單一ê符號,mā有可能是“a”kah“́”兩个符號鬥起來ê,仝一个符號若用無仝ê表示方式,會造成查詢ê困擾,所以阮提出用純文字ê白話字表示法成做內部表示法,這个表示法ê另外一个好處是排等([pâi-téng],sort)ê時,會照咱愛ê聲調順序來排。紲落來討論白話字搜揣ê方式,用一般ê字串比對並m̄是好ê做法,因為可能會揣著真濟無需要ê資料,阮提出兩階段ê搜揣策略,先用一般ê字串比對,揣著ê資料koh經過篩選才呈現予使用者。另外,根據實際台語羅馬字教學ê經驗,有一寡學習者聲調ê分別khah有困難,有ê學習者對入聲(-p/-t/-k/-h)khah無法度掌握,所以阮提出無聲調、入聲kah韻母ê查詢擴展ê方法,mākāchiaê技術應用tī台語線頂字典kah台華線頂辭典ê搜揣。Koh來是白話字顯示,因為內部純文字表示法kah正式ê白話字無仝款,所以提出內部純文字表示法kah正式白話字互相轉換ê方法,純文字表示法kā代表數字ê聲調khǹgtī一个音節ê上後壁(可比“tiau5”),正式白話字ê聲調符號是tī韻母ê一个字母頂頭(可比“tiâu”),需要判斷khǹgê位;顯示ê另外一个做法是kā白話字轉做圖形才顯示。
  
  第三章介紹台語文處理ê一寡家私,包括白話字拼字檢查,白話字文本ê音節、語詞、語句統計,漢羅合用文本音節統計,kah漢羅合用文本斷詞,有ê是台文界有需求,有ê是執行計畫需要抑是研究需要ê家私。白話字拼字檢查是kā一个白話字音節切做聲母、韻母、聲調三部分,一个合法ê台語音節會使無聲母(可比“ūi”是合法ê台語音節),m̄-koh袂使無韻母(可比“kh”m̄是合法ê台語音節),所以愛ùi後壁(聲調)檢查到頭前(聲母)khah簡單,比一个例,“m7”kah“ma7”第一字母攏是“m”,第一个“m”是韻母,第二个“m”是聲母,若ùi頭前開始檢查,就加誠費氣。白話字音節、語詞、語句統計,主要是判斷分界ê符號(delimeter),若是漢羅文本,漢字本身mā是音節ê分界。斷詞是台語文語料beh處理ê時真基本ê家私,阮利用查辭典kah倒頭上大比對演算法來做,m̄-koh因為台語文書寫khah無一致,若是使用者ê用字kah辭典無仝,斷詞結果會錯誤,為著減少錯誤,阮提供使用者會當加添使用者詞庫ê功能來解決這个問題。
  
  第四章teh討論beh按怎做台語文轉做聲音ê線頂系統。Kah華語比起來,台語有複雜ê連讀變調,問題相對困難。文字(輸入)ê部分,因為漢字寫法khah無一致,而且一个漢字可能有幾lō个讀音,koh愛處理斷詞,為著kā文轉音ê問題單純化,阮用白話字做文字輸入。白話字是標本調,所以需要提出變調演算法,阮先整理台語ê七種變調(規則變調、隨前變調、輕聲、再變調、á前變調、三連音變調kah升調),訂出變調ê內部表示法,了後根據討論台語變調ê著作所整理ê規則來揣變調分界組,m̄-kohchiaê規則無夠齊全[chiâu-chn̂g],所以阮掠一寡文本來看,設法ùi內底揣出變調分界組ê線索,訂出20條變調規則,包括音節、語詞、詞性kah語句四个無仝層次ê規則。詞性ê部分,因為無符合阮需要ê帶詞性標記ê台語辭典,阮利用中央研究院資訊所詞庫小組針對華語ê46个詞性標記做基礎,kā簡化做對判斷變調有幫贊ê12个詞性,對每一个台語語詞,透過台華辭典kā對應去華語,去查這个華語ê詞性。這个規則式ê台語變調演算法,正確率有89%。阮另外請人kā所有台語音節錄音起來,一个音節切做一个聲音檔,使用者輸入ê白話字台文,透過查辭典揣著詞性,koh經過台語變調演算法算出佗一个音節愛讀啥物聲調,了後kā對應ê聲音鬥起來做一个檔案,即時傳轉去予使用者。阮mā討論錯誤ê一寡原因,做未來改進ê參考。
  
  因為台語變調處理ê時,詞性並無做確認(disambiguity),一个語詞可能對應m̄-nā一个詞性。第五章討論台語文ê詞性標記,目標就是beh確認每一个語詞ê詞性。因為資源有限,無法度利用人工來做大量ê詞性標記(成做訓練語料)。阮提出透過kā每一个語詞對應去華語(有khah豐富ê資源),利用華語現有ê詞性標記家私來做台語文ê詞性標記。語料來源是國立台灣文學館台語文數位典藏資料庫ê台語文本,伊是有白話字kah漢羅合用兩種文字一段落一段落對齊ê語料,(舉例:“Tâi-ôantē-itkôanêGio̍k-sanêhū-kūnkhahkēêsó͘-chāi...”對應“台灣第一懸ê玉山ê附近較低ê所在...”),先kā轉做語詞對齊(“台灣/Tâi-ôan第一/tē-it懸/kôanê/ê玉山/Gio̍k-sanê/ê附近/hū-kūn較/khah低/kēê/ê所在/só͘-chāi…”),查台華辭典揣出對應ê華語詞(“台灣{台灣}第一{第一;絕頂}懸{高}ê{的}玉山{玉山}ê{的}附近{附近}較{較}低{低}ê{的}所在{去處;地方;角頭;所在;處所;場所;間量}…”),了後利用HiddenMarkovModel統計模型,提詞庫小組千萬字ê華文語料庫做訓練語料,ùichiaê華語候選詞內底揀出系統認為上適當ê華語對應詞(“台灣[台灣]第一[第一]懸[高]ê[的]玉山[玉山]ê[的]附近[附近]較[較]低[低]ê[的]所在[地方]…”),一个華語詞可能有m̄-nā一个詞性,最後利用MaximalEntropyMarkovModel統計模型決定詞性,對應轉來台語詞(“台灣/Tâi-ôan(Nc)第一/tē-it(Neu)懸/kôan(VH)ê/ê(DE)玉山/Gio̍k-san(Nc)ê/ê(DE)附近/hū-kūn(Nc)較/khah(Dfa)低/kē(VH)ê/ê(DE)所在/só͘-chāi(Na)…”)。根據這个方法,阮得著ê詞性標記正確率是91.6%。了後討論錯誤ê原因,做未來改進ê參考。
  
  第四章ê台語變調處理,實作出白話字轉語音ê線頂系統,總是因為輸入是白話字,對一寡使用者有困難,若是會當直接輸入漢羅台文,系統負責kā轉做白話字,就會使koh-khah發揮系統ê效益。第六章提出利用台語辭典詞條,加上根據台語文語料(包括白話字kah漢羅合用文本兩部分)算出來ê台語音節互訊息kah相關度ê統計資料,來實作出漢羅文本kah羅馬字文本(白話字抑是台羅攏會使)互轉系統。轉換ê正確率,比進前台語信望愛提供ê互轉家私有真大ê提升。互轉系統完成了後,連結第四章所提起ê白話字台語文轉音系統,實作出khah完整ê台語文轉音系統,包括會使輸入漢字抑是羅馬字,羅馬字用白話字抑是台羅mā攏會使。
  
  第二章到第六章所介紹ê系統攏是阮有實際參與開發ê。第七章針對目前線頂會當揣著ê台語文相關資源,分類來做介紹,無限定tī阮做ê系統,有ê系統mā會提出一寡阮ê看法。分做字型、字辭典、語料、電子冊、輸入法、斷詞、雙文字轉換系統、發音系統kah華台翻譯系統九个部分來介紹,主要beh整理現有ê資源,知影資源tī佗位,對beh參與台語文事工抑是相關研究,會當大大提升效率,mā會當感受著,看起來真冷門、弱勢ê這个領域,其實已經累積真濟有心ê人拍拚ê心血。希望後來加入ê友志,會當以這个基礎繼續向前行。
 

內容連載

第一章 導論
 
這本冊主要是beh討論台語文tī語料處理方面ê相關問題,並且針對現有ê台語文相關線頂資源做一寡介紹。

作者採用台語文來寫作,文字形式是漢羅合用,這mā是目前台語文書寫主流ê書寫形式,避免攏用漢字書寫,予部分讀者掠做是華文抑是奇怪ê火星文。漢字ê部分,遵照教育部規範ê用字,就是教育部台灣閩南語常用詞辭典 ê用字,希望幫贊台語漢字標準化ê推行;羅馬字ê部分採用白話字(教會羅馬字),因為所處理ê台語文文本,羅馬字ê部分主要是白話字,白話字tī台灣使用已經超過100冬,留真濟台語ê文本,這是台灣不止重要ê無形資產;教育部tī 2006年10月公布台灣閩南語羅馬字拼音方案(以下簡稱「台羅」),kah白話字有淡薄仔無仝,總是符號無衝突,所以teh討論白話字按怎處理ê時,mā會順紲討論台羅ê部分。

Tī這章,咱先beh對台語這个語言做簡單ê介紹。

第一節 背景
一、台灣所使用ê語言kah語言人口
根據2013年ê Ethnologue : Languages of the World(《世界語言年鑑》) ê記錄,台灣有26種語言,除去其中四種語言已經死去,koh有22種iah-koh活leh ê語言。(Lewis et.al. 2013) 台灣ê語言現況,請參考表 1 - 1。
表 1 - 1 台灣ê語言現況
 
語言狀態等級kah說明 語言
1 國家語言National 華語Mandarin
3 普遍使用 Wider Communication 台語(閩南語)Min nan、日語Japanese
4 教學用 Educational 台灣手語Taiwan sign language、太魯閣語Taroko
5 發展中 Developing 阿美語Amis、泰雅語Atayal、布農語Bunun、客語Hakka、排灣語Paiwan、魯凱語Rukai、雅美語Yami
6a 有活力 Vigorous 鄒語Tsou
6b 受威脅 Threatened 賽夏語Saisiyat
7 無傳承 Shifting 卑南語Puyuma
8b 接近滅絕
Nearly Extinct 荳蘭阿美語Amis Nataoran、卡那卡那布語Kanakanabu、噶瑪蘭語Kavalan、沙阿魯阿語Saaroa、邵語Thao
9 賰文獻 Dormant 貓霧拺語Babuza、西拉雅語Siraya
10 滅絕 Extinct 巴賽Basay、凱達格蘭Ketangalan、龜崙巴宰Kulon-Pazeh、拍瀑拉洪雅Papora-Hoanya
資料來源:Lewis et.al. (2013), 語言狀態分級請參考www.ethnologue.com/about/language-status
網路書店 類別 折扣 價格
  1. 新書
    9
    $261