five

techiaith/cofnodycynulliad_en-cy

收藏
Hugging Face2025-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/techiaith/cofnodycynulliad_en-cy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由英语-威尔士语句对组成,这些语句对是通过解析威尔士议会网站提供的数据获得的。数据集支持翻译、文本分类和句子相似性等任务,语言包括英语和威尔士语。数据集的结构包括源语言和目标语言字段,数据分割为训练集。数据集的创建过程使用了DVC和Python的内部管道。源数据收集和标准化过程中,如果句子包含过多拼写错误或句子长度差异过大,则会被丢弃。源语言数据来自Senedd全体会议的记录及其翻译。数据集的源数据受英国皇家版权保护,并根据开放政府许可证进行许可。

该数据集由英语-威尔士语句对组成,这些语句对是通过解析威尔士议会网站提供的数据获得的。数据集支持翻译、文本分类和句子相似性等任务,语言包括英语和威尔士语。数据集的结构包括源语言和目标语言字段,数据分割为训练集。数据集的创建过程使用了DVC和Python的内部管道。源数据收集和标准化过程中,如果句子包含过多拼写错误或句子长度差异过大,则会被丢弃。源语言数据来自Senedd全体会议的记录及其翻译。数据集的源数据受英国皇家版权保护,并根据开放政府许可证进行许可。
提供机构:
techiaith
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: Cofnod Y Cynulliad en-cy
  • 数据集大小: 100K<n<1M
  • 语言: 英语(en)、威尔士语(cy)
  • 任务类别: 翻译、文本分类、摘要、句子相似度
  • 数据来源: 威尔士议会网站
  • 数据集创建方式: 使用DVC和Python构建的内部管道
  • 许可证: 开放政府许可证

数据集结构

数据字段

  • source: 源语言句子
  • target: 目标语言句子

数据分割

  • train: 训练集

数据集创建

源数据收集与规范化

  • 原始数据来自威尔士议会的全体会议记录及其翻译。
  • 在数据收集过程中,排除了包含过多拼写错误或句子长度差异过大的句子。

源语言生产者

  • 语言数据来源于Senedd的全体会议记录及其翻译。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作