five

picocreator/constitution-multi-lang

收藏
Hugging Face2023-05-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/picocreator/constitution-multi-lang
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含多个国家宪法法律文件及其官方语言翻译的集合。项目的目标是获取各种非英语国家宪法的官方翻译对,这些翻译对由于是国家重要文件,预期质量较高。此外,许多政府文件是“无版权的”,这消除了训练过程中的法律问题。数据集还提供了如何贡献和跟进贡献的步骤,以及一个加拿大的例子来说明数据集的结构和内容。
提供机构:
picocreator
原始信息汇总

数据集概述

数据集名称

Constitution Multi Lang

数据集描述

该数据集包含多个国家的宪法法律文件及其官方语言翻译。这些文件主要为非英语国家的宪法,旨在提供高质量的官方翻译对,以便用于AI训练。

许可证

apache-2.0

数据集内容结构

  • raw-copies: 存放各国家官方宪法文件或链接。
  • cleaned: 存放经过清理和转换的宪法文件,确保原文与翻译在行号内容上1:1匹配。
  • parsed: 存放转换为翻译训练对的.jsonl文件。

贡献指南

  1. 获取官方副本或链接,放置在raw-copies下的相应国家文件夹中。
  2. 清理并转换原始副本为语言标记对,确保1:1匹配,存放在cleaned文件夹中。
  3. 通过GitHub提交拉取请求。

后续处理步骤

  1. 验证清理后的标记对,确保与官方副本1:1匹配。
  2. 转换为翻译训练对,生成.jsonl文件存放在parsed文件夹中。
  3. 从词汇和章节对中抽取部分用于验证数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作