five

botisan-ai/cantonese-mandarin-translations

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/botisan-ai/cantonese-mandarin-translations
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个机器翻译的平行语料库,涵盖了粤语(主要在广东、香港、澳门和马来西亚部分地区使用)和简体中文之间的翻译。数据集的结构为JSON格式,包含粤语和中文的平行语料。数据集的创建过程包括下载HKCancor粤语语料库和CommonVoice粤语文本语料库,提取文本并合并数据集,然后通过微软的翻译API将粤语翻译为简体中文。数据集的目的是为研究提供一个合理的样本,目前没有类似的语料库存在。

This is a parallel corpus for machine translation, covering translation pairs between Cantonese (primarily used in Guangdong, Hong Kong, Macau and parts of Malaysia) and Simplified Chinese. The dataset is structured in JSON format, containing parallel text pairs between Cantonese and Simplified Chinese. The dataset construction process includes downloading the HKCancor Cantonese corpus and the CommonVoice Cantonese text corpus, extracting and merging their texts to form the dataset, then translating the Cantonese content into Simplified Chinese via the Microsoft Translator API. The purpose of this dataset is to provide a reasonable research sample, as no similar corpus currently exists.
提供机构:
botisan-ai
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 类型: 机器翻译平行语料库
  • 语言:
    • 粤语 (yue)
    • 简体中文 (zh-CN)
  • 内容: 粤语与简体中文之间的平行语料库

支持的任务和排行榜

  • 任务:
    • 文本到文本生成
    • 翻译
  • 排行榜: 无

语言

  • 粤语 (yue)
  • 简体中文 (zh-CN)

数据集结构

数据实例

  • 格式: JSON lines

数据字段

  • yue: 粤语语料
  • zh: 翻译后的中文语料

数据分割

  • 分割情况: 未进行分割

数据集创建

来源数据

注释过程

个人和敏感信息

  • 信息类型: 无

使用数据集的考虑因素

社会影响

  • 目的: 分享平行语料库,欢迎贡献以保存粤语方言

已知限制

  • 限制: 平行语料库是机器翻译的,不是100%准确

附加信息

数据集管理员

许可信息

引用信息

@misc {botisanAiCantoneseMandarinTranslationsDatasets, author = {Liang, H.}, title = {Cantonese Mandarin Translations Dataset}, year = {2021}, url = {https://huggingface.co/datasets/botisan-ai/cantonese-mandarin-translations}, }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个粤语与普通话的平行翻译语料库,包含约2.4万条句子对,适用于翻译任务和研究。数据集通过机器翻译生成,格式为JSON,覆盖多种日常对话和场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作