techiaith/legislation-gov-uk_en-cy
收藏Hugging Face2025-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/techiaith/legislation-gov-uk_en-cy
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从英国立法网站www.legislation.gov.uk抓取的英威尔士语句子对数据集,用于翻译、文本分类、摘要和句子相似度任务。数据集大约170 Mb大小,包含训练数据。
This dataset consists of English-Welsh sentence pairs obtained from scraping the www.legislation.gov.uk website, used for tasks such as translation, text classification, summarization, and sentence similarity. The dataset is approximately 170 Mb in size, containing training data.
提供机构:
techiaith
原始信息汇总
数据集概述
数据集名称
UK Government Legislation
数据集描述
该数据集包含从www.legislation.gov.uk网站上抓取的英语-威尔士语句子对。数据集总大小约为170 Mb。
支持的任务
- 翻译
- 文本分类
- 摘要生成
- 句子相似度
语言
- 英语
- 威尔士语
数据集结构
数据字段
- source(源语言)
- target(目标语言)
数据分割
- 训练集
数据集创建
数据集中的英语-威尔士语句子对通过抓取www.legislation.gov.uk网站获得,并使用内部处理流程进行数据清洗。
源数据
初始数据收集和规范化
在以下情况下,从原始抓取的源中删除句子:
- 句子包含太多拼写错误的单词
- 句子长度相似度差异过大。
源语言生产者
语言数据,包括源语言和目标语言数据,来源于英国立法。
许可证信息
该数据集的源数据受英国皇冠版权保护,并根据开放政府许可证授权。



