# Lagarrue 北部灣粵語在線語料庫(Lagarrue's GoT Cantonese Online Corpus)

Lagarrue 北部灣粵語在線語料庫 網址:got.jyutdict.org (opens new window)

本網站爲開源項目 (opens new window),歡迎 issue、star 及 fork 後改建其他在線語料庫。

本文曾在美東時間 2023 年 12 月 1 日 俄亥俄州立大學 · 第二十七屆國際粵方言研討會 (opens new window) 報告,相關會議論文發表在 俄亥俄州立大學 · 東亞語言學第九期(BEAL 9)。

報告人:@以成 (opens new window)

本文爲「19 世紀末中越邊境廣東話嘅歸屬」嘅附屬研究,原主研究曾在 2021 年 12 月 18 日 香港中文大學 · 第二十五屆國際粵方言研討會 (opens new window) 報告,相關會議論文發表在 香港中文大學 · 中國語文通訊(CrCL)第 102 卷第 2 期。

# 1. 摘要

以下中文摘要僅供參考,請以英文版爲準:

在晚清資料中,北部灣(GoT)的語言多樣性被詳細記錄,尤其是在Lagarrue(1900)的教科書中。作者使用越南字母來拼寫粵語,這與拉丁字母的標準用法有顯著不同。這一寶貴資源包含超過 2400 個詞彙項目、2500 個帶有發音的獨特字符、發音指南、對話以及以越南字母書寫粵語讀音的文言文訴狀。此外,此文本還包括三語詞彙表、翻譯成法語的慣用語,以及與 19 世紀末廣州粵語的比較。

該研究專注於爲 Lagarrue 的文本開發全面的預處理工作流程,包括技術增強型文本組織(手動整理、光學字符識別、機器翻譯)、將 Lagarrue 的文本轉換爲 Jyutping++、通過統計分析提取語言見解。其方法論包括一種可逆的、頻率優先的改進型 Jyutping++ 轉錄方案、一種分解越南字母算法、有用的正則表達式模式,以及建立具有搜索功能且全球研究者可訪問的一個開放在線數據庫(got.jyutdict.org)。

初步語言學研究結果(Lai 等人,2023)記錄了如「豪」韻和「侯」韻合併、「陽」韻與「梗」攝白讀合併,以及值得注意的古上聲實例等現象。他們突出了19世紀末中越邊境地區粵方言的重要音系特徵。這進一步強調了預處理工作流程的重要性,有助於更深入地探索方言,同時凸顯數位化及開源努力在語言學研究中的重要意義。

關鍵字: Éléments de Langue Chinoise: Dialecte Cantonais, 晚清粵語, 越南語字母, 歷史語料庫, 預處理

# 2. 引用方式

歡迎引用本項目!如果引用嘅內容同本項目嘅預處理或語料庫語言學方面有關,請引用附屬研究;如果同本項目嘅歷史語言學方面有關,請引用主研究;如果同本項目嘅網站代碼有關,請引用 GitHub 倉庫

# 2.1 附屬研究

MLA 8th:

Huang, Junxin, and Joeng-zit Lai. "Evolving Pre-processing of Raw Corpus: The Digitization Initiative of Cantonese Material at the Sino-Vietnamese Border in the Late 19th Century." Buckeye East Asian Linguistics, vol. 9, Nov 2024, pp. 32–51.

APA:

Huang, J., & Lai, J. (2024, Nov). Evolving Pre-processing of Raw Corpus: The Digitization Initiative of Cantonese Material at the Sino-Vietnamese Border in the Late 19th Century. Buckeye East Asian Linguistics, 9, 32–51.

# 2.2 主研究

MLA 8th:

Lai, Joeng-zit, et al. "The Affiliation of Cantonese at the Sino-Vietnamese Border in the Late 19th Century." Current Research in Chinese Linguistics, vol. 102, no. 2, July 2023, DOI: 10.29499/CrCL.202307_102(2).0004.

APA:

Lai, J., Wòng, P., Huang, J., & Ng, G.-O. (2023, July). The Affiliation of Cantonese at the Sino-Vietnamese Border in the Late 19th Century. Current Research in Chinese Linguistics, 102(2). https://doi.org/10.29499/CrCL.202307_102(2).0004

# 2.3 GitHub 倉庫

MLA 8th:

Jyutdict Editorial Board IT Workgroup of Lingnaam Jyutjam. Lagarrue's GoT Cantonese Online Corpus. Version v0.1.0, GitHub, 27 Nov. 2024, https://github.com/JyutdictEB/GoTCorpus. Accessed [YOUR ACCESS DATE].

APA:

Jyutdict Editorial Board IT Workgroup of Lingnaam Jyutjam. (2024, November 27). Lagarrue's GoT Cantonese Online Corpus (Version v0.1.0). GitHub. https://github.com/JyutdictEB/GoTCorpus

上次更新: 11/28/2024, 5:10:37 AM