# Lagarrue 北部灣粵語在線語料庫(Lagarrue's GoT Cantonese Online Corpus)

Lagarrue 北部灣粵語在線語料庫 網址:got.jyutdict.org (opens new window)

本網站爲開源項目 (opens new window),歡迎 issue、star 及 fork 後改建其他在線語料庫。

本文曾在美東時間 2023 年 12 月 1 日 俄亥俄州立大學 · 第二十七屆國際粵方言研討會 (opens new window) 報告,相關會議論文發表在 俄亥俄州立大學 · 東亞語言學第九期(BEAL 9)。

報告人:@以成 (opens new window)

本文爲「19 世紀末中越邊境廣東話嘅歸屬」嘅附屬研究,原主研究曾在 2021 年 12 月 18 日 香港中文大學 · 第二十五屆國際粵方言研討會 (opens new window) 報告,相關會議論文發表在 香港中文大學 · 中國語文通訊(CrCL)第 102 卷第 2 期。

# 1. 摘要


在晚清資料中,北部灣(GoT)的語言多樣性被詳細記錄,尤其是在Lagarrue(1900)的教科書中。作者使用越南字母來拼寫粵語,這與拉丁字母的標準用法有顯著不同。這一寶貴資源包含超過 2400 個詞彙項目、2500 個帶有發音的獨特字符、發音指南、對話以及以越南字母書寫粵語讀音的文言文訴狀。此外,此文本還包括三語詞彙表、翻譯成法語的慣用語,以及與 19 世紀末廣州粵語的比較。

該研究專注於爲 Lagarrue 的文本開發全面的預處理工作流程,包括技術增強型文本組織(手動整理、光學字符識別、機器翻譯)、將 Lagarrue 的文本轉換爲 Jyutping++、通過統計分析提取語言見解。其方法論包括一種可逆的、頻率優先的改進型 Jyutping++ 轉錄方案、一種分解越南字母算法、有用的正則表達式模式,以及建立具有搜索功能且全球研究者可訪問的一個開放在線數據庫(got.jyutdict.org)。

初步語言學研究結果(Lai 等人,2023)記錄了如「豪」韻和「侯」韻合併、「陽」韻與「梗」攝白讀合併,以及值得注意的古上聲實例等現象。他們突出了19世紀末中越邊境地區粵方言的重要音系特徵。這進一步強調了預處理工作流程的重要性,有助於更深入地探索方言,同時凸顯數位化及開源努力在語言學研究中的重要意義。

關鍵字: Éléments de Langue Chinoise: Dialecte Cantonais, 晚清粵語, 越南語字母, 歷史語料庫, 預處理

