community-datasets/udhr
收藏数据集卡片:《世界人权宣言》(UDHR)
数据集描述
数据集摘要
《世界人权宣言》(UDHR)是人类历史上的一项里程碑文件。它由来自世界各地具有不同法律和文化背景的代表起草,首次提出了普遍受保护的基本人权。该宣言于1948年12月10日在巴黎举行的联合国大会第183次全体会议上被采纳。
支持的任务和排行榜
[更多信息需补充]
语言
该数据集包括该文件在超过400种语言和方言中的翻译。语言列表可以在这里找到。
数据集结构
数据实例
每个实例对应一种不同的语言,并包括该语言和完整文档文本的信息。
数据字段
text: 完整文档文本,每行文本由换行符()分隔。lang_key: 给定翻译的唯一标识符。lang_name: 语言/方言的文本描述。iso639-3: iso639-3 语言标识符。iso15924: iso15924 语言标识符。bcp47: BCP 47 语言标识符。
数据分割
仅包含一个 train 分割,其中包括所有语言的完整文档。
| train | |
|---|---|
| 样本数量 | 488 |
数据集创建
策划理由
除了其社会意义外,该文件在1999年创下了世界上被翻译最多的文件的世界纪录,因此对于需要多种语言配对文本的场景非常有用。
源数据
初始数据收集和规范化
[更多信息需补充]
源语言生产者是谁?
[更多信息需补充]
注释
注释过程
[更多信息需补充]
注释者是谁?
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据集的注意事项
数据集的社会影响
除了联合国《世界人权宣言》的社会和政治意义外,该文件在1999年创下了世界上被翻译最多的文件的世界纪录,因此对于需要多种语言配对文本的场景非常有用,包括那些在自然语言处理研究中严重不足的低资源语言。
偏见的讨论
[更多信息需补充]
其他已知限制
尽管该文件被翻译成非常多的语言,但文本非常短,因此对于大多数类型的建模和评估可能用途有限。
附加信息
数据集策展人
这里的txt/xml数据文件由Unicode Consortium编译,可以在这里找到。原始文本可以在联合国网站上找到。
许可信息
源文本 © 1996 – 2022 联合国人权事务高级专员办事处
这些翻译适用于Unicode许可。
引用信息
United Nations. (1998). The Universal Declaration of Human Rights, 1948-1998. New York: United Nations Dept. of Public Information.



