five

Cantonese-English Parallel Corpus

收藏
github2023-06-01 更新2024-05-31 收录
下载链接:
https://github.com/ayaka14732/abc-cantonese-parallel-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从ABC粤语-英语综合词典中提取的粤语-英语平行语料库,包含约14,000个句子。其目的是为开发粤语-英语翻译模型提供高质量的平行数据,以促进粤语自然语言处理研究的发展。

This dataset is a Cantonese-English parallel corpus extracted from the ABC Cantonese-English Comprehensive Dictionary, containing approximately 14,000 sentences. Its purpose is to provide high-quality parallel data for the development of Cantonese-English translation models, thereby advancing research in Cantonese natural language processing.
创建时间:
2023-06-01
原始信息汇总

数据集概述

数据集名称

Cantonese-English Parallel Corpus (extracted from the ABC Dictionary)

数据集内容

  • 包含约14,000句的粤英平行语料库。
  • 数据来源于ABC粤英综合词典。

数据集目的

  • 提供高质量的平行数据,用于开发粤英翻译模型。
  • 促进粤语自然语言处理研究的发展。

数据获取方式

  1. Google Drive下载

    • 文件:yue.txten.txt

    • 下载命令: sh gdown 1WJ7bWgIhus-geMqwWoyt_POalgrJxuwj # yue.txt gdown 1XbO6POEbjeiYuIZe_SN9ECv571IRyz2T # en.txt

    • 附加文件:titles.txtWenlin+Dictionaries-20221101051901.xml

  2. 源代码构建

    • 提供构建脚本,可重新运行以获取最新版本的语料库。
    • 构建步骤包括注册Wenlin Dictionaries Wiki账户、编辑scrape.py、运行脚本获取标题列表和数据,以及手动验证构建结果。

数据处理差异

  1. 汉字选择修改
    • 根据现代香港习惯或words.hk惯例调整汉字选择。
  2. 句末添加句号
    • 原词典中陈述句末尾未包含句号,现予以添加。
  3. 去除非信息性空格
    • 移除汉字与英文字母、数字之间的空格,保留英文单词间的空格。

数据集版本

  • 建议研究使用时,尽可能使用提供的版本,因为源代码构建的版本可能有所不同。
搜集汇总
数据集介绍
main_image_url
构建方式
Cantonese-English Parallel Corpus 数据集是从《ABC粤英综合词典》中提取的粤英平行语料库,包含约14,000条句子。该数据集的构建过程包括从Wenlin词典Wiki中抓取页面标题,导出XML格式的原始数据,并通过脚本提取和构建语料库。为确保数据的准确性和现代性,数据集对汉字选择进行了调整,以符合香港地区的用字习惯,并在句子末尾添加了句号,同时移除了非信息性空格。
特点
该数据集的特点在于其高质量的粤英平行句子对,涵盖了现代香港地区常用的汉字选择,反映了当地的语言习惯。数据集还通过添加句号和移除非信息性空格,提升了数据的可读性和一致性。此外,数据集提供了从原始数据到最终语料库的完整构建流程,确保了数据的透明性和可复现性。
使用方法
用户可以通过Google Drive下载已构建好的语料库文件,包括粤语和英语的平行文本文件。此外,用户还可以通过提供的脚本从Wenlin词典Wiki重新构建语料库,以获得最新版本的数据。使用该数据集时,建议优先使用已提供的版本以确保研究的一致性。数据集适用于粤英翻译模型的开发,为粤语自然语言处理研究提供了重要的数据支持。
背景与挑战
背景概述
粤语-英语平行语料库(Cantonese-English Parallel Corpus)是从《ABC粤语-英语综合词典》中提取的平行语料库,包含约14,000条句子。该数据集由研究人员于2022年创建,旨在为粤语-英语翻译模型的开发提供高质量的平行数据,推动粤语自然语言处理(NLP)研究的发展。粤语作为汉语的重要方言之一,其语言结构和表达方式与普通话存在显著差异,因此构建粤语-英语平行语料库对跨语言翻译和语言学研究具有重要意义。该数据集的发布填补了粤语NLP领域数据资源的空白,为相关研究提供了宝贵的实验基础。
当前挑战
粤语-英语平行语料库的构建面临多重挑战。首先,粤语的语言特性复杂,其词汇、语法和表达方式与普通话及英语存在显著差异,这对语料对齐和翻译模型的训练提出了较高要求。其次,数据集的构建过程中需处理版权问题,原始数据无法直接公开,研究人员需通过间接方式获取并处理数据,增加了数据获取和整理的难度。此外,粤语中部分汉字的书写形式与现代香港习惯存在差异,数据集在构建过程中需对这些汉字进行标准化处理,以确保语料的准确性和实用性。最后,数据集的构建还需解决句子标点符号的规范化问题,例如在陈述句末尾添加句号,以符合粤语和英语的语言习惯。这些挑战共同构成了该数据集构建的核心难点。
常用场景
经典使用场景
Cantonese-English Parallel Corpus 数据集在自然语言处理领域中被广泛用于开发粤语-英语翻译模型。该数据集包含了约14,000条句子对,为研究者提供了高质量的平行语料,支持机器翻译系统的训练与优化。通过该数据集,研究者能够深入分析粤语与英语之间的语言结构差异,进而提升翻译模型的准确性和流畅性。
实际应用
在实际应用中,Cantonese-English Parallel Corpus 数据集被广泛用于开发粤语-英语翻译工具,支持跨语言交流与信息检索。例如,该数据集可用于构建粤语-英语双语词典、翻译软件以及在线翻译平台,帮助粤语使用者与英语使用者之间的无障碍沟通。此外,该数据集还可用于教育领域,辅助粤语学习者掌握英语表达。
衍生相关工作
基于该数据集,研究者开展了多项经典工作,包括粤语-英语神经机器翻译模型的开发与优化。例如,一些研究利用该数据集训练了基于Transformer架构的翻译模型,显著提升了翻译质量。此外,该数据集还被用于粤语语言模型的预训练,为粤语自然语言处理任务提供了强大的基础支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作