five

Cantonese.md

收藏
github2026-04-28 更新2026-04-30 收录
下载链接:
https://github.com/daimaruhk/Cantonese.md
下载链接
链接失效反馈
官方服务:
资源简介:
Cantonese.md是一个开源项目,致力于通过高质量的数据集保存和推广粤语。该项目以Markdown格式存储粤语成语(歇後語)等内容,旨在为大型语言模型提供高质量的粤语训练数据。

Cantonese.md is an open-source project dedicated to preserving and promoting Cantonese via high-quality datasets. This project stores content including Cantonese idioms (two-part allegorical sayings, i.e., xiehouyu) in Markdown format, with the goal of providing high-quality Cantonese training data for large language models.
创建时间:
2026-04-06
原始信息汇总

数据集概述:Cantonese.md

Cantonese.md 是一个致力于通过开源数据和现代技术保存、推广粤语(广东话)的开源项目。该项目旨在解决大型语言模型因缺乏高质量训练数据而在处理粤语时表现不佳的问题,通过构建人工监督的高质量粤语知识数据集来填补这一空白。

核心目标

  • 保存粤语文化:以数字化形式记录粤语及其文化背景。
  • 提供高质量数据:通过人工审核确保数据的语法、用词和文化背景的真实性。
  • 推动AI发展:为大型语言模型提供粤语训练数据,提升其对粤语的理解能力。

数据集内容

  • 数据格式:所有数据以 Markdown 文件 形式存储在 src/contents/ 目录下。
  • 数据结构:每个条目包含以下字段:
    • id:唯一标识符。
    • term:粤语词条(如“阿茂整餅”)。
    • termJyutping:词条的粤语拼音。
    • answer:词条的解释或对应含义(如“冇嗰樣整嗰樣”)。
    • answerJyutping:解释的粤语拼音。
    • 正文:包含字面意思、文化背景、使用示例等详细说明。
  • 示例条目:以“阿茂整餅”为例,其内容涵盖字面意义(“冇嗰樣整嗰樣”)及历史典故。

数据特点

  • 数据规模:覆盖全球超过1亿粤语使用者,当前以粤语歇后语为起点,未来计划扩展到俚语等更多内容。
  • 质量保障:所有数据均经过人工监督,确保语法正确、用词地道,并附带文化注释。
  • 存储格式优势
    • AI友好:便于大型语言模型解析和训练。
    • 人类可读:无需专用工具即可编辑和贡献。
    • 灵活性强:支持丰富上下文(如解释、示例、文化背景)。

开源与许可

  • 软件与代码:采用 MIT 许可证
  • 数据与内容src/contents/ 目录下的所有 Markdown 文件以 CC0 1.0 通用许可证(公共领域)发布。

参与贡献

  • 内容扩展:添加新的粤语词汇、歇后语、俚语等。
  • 质量改进:校对事实、修正语法或优化用词。
  • 代码优化:改进用户界面或组件功能。
  • 讨论与反馈:通过 GitHub Discussions 进行交流,使用 Issues 报告错误或提出功能建议。

在线资源

  • 演示网站https://cantonese.md(可直接浏览和发现粤语词汇)。
  • 开发指南:参见项目的 ./docs/development.md
  • 贡献指南:参见项目的 ./CONTRIBUTING.md
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能时代,语言的存续高度依赖其数字化足迹的质量与规模。为弥补当前大语言模型在粤语理解上的训练数据缺口,Cantonese.md项目以开源协作的方式构建了一个人工监督的高质量知识数据集。每条数据均以Markdown格式存储于src/contents/目录下,包含唯一标识符、词汇、粤拼注音、释义等结构化字段,同时支持嵌入文化背景、例句等丰富上下文信息。这种格式兼顾了机器解析的便捷性与人类编辑的直观性,使得跨领域贡献者无需专用工具即可参与语料扩充与质量校验。
特点
该数据集的核心优势在于其开放性与高质量保障。通过社区驱动的内容贡献机制,项目广泛收录从经典歇後語到日常俚语的多元粤语表达,覆盖全球逾一亿使用者的语言习惯。所有数据均经过人工审核,严格确保语法正确、用词地道与文化语境真实。此外,项目采用静态网站生成技术构建现代化浏览界面,提供流畅的检索与发现体验,并借助CC0公共领域许可协议释放数据潜力,使其可自由用于学术研究与商业应用。
使用方法
使用者可通过两种途径探索该数据集。普通用户可直接访问项目部署的交互式网站进行浏览与检索;研究人员与开发者可从GitHub仓库克隆完整数据,其Markdown格式天然适配大语言模型微调与自然语言处理任务。数据条目内嵌的粤拼标注系统为语音识别、机器翻译等场景提供了精准的发音参考。如需扩展语料库,参与者可通过GitHub提交新内容或修订现有条目,所有变更将经由社区讨论与审查后合并,确保数据质量持续迭代优化。
背景与挑战
背景概述
在人工智能高速发展的时代,语言的数字化存续对其生命力至关重要。粤语作为一种拥有逾亿使用者的重要汉语方言,承载着深厚的岭南文化底蕴,然而主流大语言模型在处理粤语时因缺乏高质量训练数据而表现欠佳。Cantonese.md项目于近年发起,由研究机构及社区开发者共同维护,旨在通过开源协作构建经人工核验的高质量粤语数据集。该项目以粤语歇后语为起点,逐步扩展至俚语、俗语等多元语言现象,致力于填补粤语在数字世界的资源空白,为语言保护与文化传承提供技术支撑。其CC0许可的数据授权方式,进一步促进了学术研究与商业应用的开放共享。
当前挑战
数据集面临的核心挑战在于粤语作为方言的独特性所带来的领域难题:其一,粤语存在大量口语化、地域性的表达,缺乏统一的书写规范,导致数据标注与标准化的难度远高于普通话;其二,众多歇后语、俚语依赖特定的文化背景与历史典故,非母语者难以准确释义,人工核验需依赖资深母语者参与,增加了数据构建的人力成本与时间周期。此外,项目初期数据量有限,如何吸引更多贡献者、确保数据覆盖的广度与真实性,并设计出既符合语言学严谨性又便于AI模型解析的存储格式,均是持续发展中必须克服的挑战。
常用场景
经典使用场景
Cantonese.md 数据集的核心应用场景在于为自然语言处理(NLP)领域提供高质量、结构化、经人工校验的粤语语料。该数据集以粤语歇后语和俗语为起点,采用 Markdown 格式存储,每一条目不仅包含拼音标注(粤拼),还提供了字面解释、文化背景等丰富上下文信息。这使得它特别适用于训练和评估粤语大语言模型,尤其是在理解粤语特有的修辞手法、双关语义以及文化隐喻方面。研究者可借助该数据集进行粤语句子补全、语义相似度计算、方言到普通话的机器翻译,以及跨语言知识迁移等经典任务,为粤语作为低资源语言的 NLP 研究提供了稀缺的标准化基准。
实际应用
在实际应用中,Cantonese.md 数据集可赋能一系列粤语场景下的智能系统。例如,语音助手可通过学习数据集中的粤拼标注与俗语解释,提升对粤语口语指令(如点餐、问路)的识别准确率;社交媒体内容审核系统能借助其中文化语境信息,准确甄别粤语俚语中的冒犯性表达或双关含义。此外,数字人文领域可基于该数据集开发粤语文化教育软件,通过歇后语的互动学习帮助非母语者理解粤语背后的岭南文化。对于面向粤港澳大湾区的智能客服、新闻摘要生成以及方言语音合成引擎,该数据集都是不可或缺的基础资源。
衍生相关工作
该数据集已催生出多项具有启发性的衍生工作。在技术层面,受其 Markdown 结构化存储的启发,研究者开始探索融合文化注释的方言知识图谱构建方法,例如提取歇后语中的实体与语义关系形成粤语常识库。在应用层面,出现了基于该数据集训练的粤语写作辅助工具和方言情感分析模型。更值得关注的是,Cantonese.md 的开源协作模式为其他低资源语言(如客家话、闽南语)的数字化保护提供了可复制的范式——多个社区已参考其贡献指南和审查流程,启动了各自的方言语料库建设项目,从而推动了全球濒危语言在 AI 时代的系统性拯救工程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作