techiaith/cofnodycynulliad_en-cy
收藏Hugging Face2025-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/techiaith/cofnodycynulliad_en-cy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由英语-威尔士语句对组成,这些语句对是通过解析威尔士议会网站提供的数据获得的。数据集支持翻译、文本分类和句子相似性等任务,语言包括英语和威尔士语。数据集的结构包括源语言和目标语言字段,数据分割为训练集。数据集的创建过程使用了DVC和Python的内部管道。源数据收集和标准化过程中,如果句子包含过多拼写错误或句子长度差异过大,则会被丢弃。源语言数据来自Senedd全体会议的记录及其翻译。数据集的源数据受英国皇家版权保护,并根据开放政府许可证进行许可。
该数据集由英语-威尔士语句对组成,这些语句对是通过解析威尔士议会网站提供的数据获得的。数据集支持翻译、文本分类和句子相似性等任务,语言包括英语和威尔士语。数据集的结构包括源语言和目标语言字段,数据分割为训练集。数据集的创建过程使用了DVC和Python的内部管道。源数据收集和标准化过程中,如果句子包含过多拼写错误或句子长度差异过大,则会被丢弃。源语言数据来自Senedd全体会议的记录及其翻译。数据集的源数据受英国皇家版权保护,并根据开放政府许可证进行许可。
提供机构:
techiaith
原始信息汇总
数据集概述
数据集描述
- 数据集名称: Cofnod Y Cynulliad en-cy
- 数据集大小: 100K<n<1M
- 语言: 英语(en)、威尔士语(cy)
- 任务类别: 翻译、文本分类、摘要、句子相似度
- 数据来源: 威尔士议会网站
- 数据集创建方式: 使用DVC和Python构建的内部管道
- 许可证: 开放政府许可证
数据集结构
数据字段
- source: 源语言句子
- target: 目标语言句子
数据分割
- train: 训练集
数据集创建
源数据收集与规范化
- 原始数据来自威尔士议会的全体会议记录及其翻译。
- 在数据收集过程中,排除了包含过多拼写错误或句子长度差异过大的句子。
源语言生产者
- 语言数据来源于Senedd的全体会议记录及其翻译。



