picocreator/constitution-multi-lang
收藏Hugging Face2023-05-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/picocreator/constitution-multi-lang
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含多个国家宪法法律文件及其官方语言翻译的集合。项目的目标是获取各种非英语国家宪法的官方翻译对,这些翻译对由于是国家重要文件,预期质量较高。此外,许多政府文件是“无版权的”,这消除了训练过程中的法律问题。数据集还提供了如何贡献和跟进贡献的步骤,以及一个加拿大的例子来说明数据集的结构和内容。
提供机构:
picocreator
原始信息汇总
数据集概述
数据集名称
Constitution Multi Lang
数据集描述
该数据集包含多个国家的宪法法律文件及其官方语言翻译。这些文件主要为非英语国家的宪法,旨在提供高质量的官方翻译对,以便用于AI训练。
许可证
apache-2.0
数据集内容结构
raw-copies: 存放各国家官方宪法文件或链接。cleaned: 存放经过清理和转换的宪法文件,确保原文与翻译在行号内容上1:1匹配。parsed: 存放转换为翻译训练对的.jsonl文件。
贡献指南
- 获取官方副本或链接,放置在
raw-copies下的相应国家文件夹中。 - 清理并转换原始副本为语言标记对,确保1:1匹配,存放在
cleaned文件夹中。 - 通过GitHub提交拉取请求。
后续处理步骤
- 验证清理后的标记对,确保与官方副本1:1匹配。
- 转换为翻译训练对,生成.jsonl文件存放在
parsed文件夹中。 - 从词汇和章节对中抽取部分用于验证数据集。



