five

community-datasets/udhr

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/udhr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了《世界人权宣言》(UDHR)的多语言翻译版本,涵盖了超过400种语言和方言的翻译文本。每个实例对应一种语言的完整文档文本,并包含语言相关的标识信息,如语言名称、ISO 639-3代码、ISO 15924代码和BCP 47代码。数据集的主要用途是翻译任务,但由于文本较短,可能在大多数建模和评估中的实用性有限。
提供机构:
community-datasets
原始信息汇总

数据集卡片:《世界人权宣言》(UDHR)

数据集描述

数据集摘要

《世界人权宣言》(UDHR)是人类历史上的一项里程碑文件。它由来自世界各地具有不同法律和文化背景的代表起草,首次提出了普遍受保护的基本人权。该宣言于1948年12月10日在巴黎举行的联合国大会第183次全体会议上被采纳。

支持的任务和排行榜

[更多信息需补充]

语言

该数据集包括该文件在超过400种语言和方言中的翻译。语言列表可以在这里找到。

数据集结构

数据实例

每个实例对应一种不同的语言,并包括该语言和完整文档文本的信息。

数据字段

  • text: 完整文档文本,每行文本由换行符( )分隔。
  • lang_key: 给定翻译的唯一标识符。
  • lang_name: 语言/方言的文本描述。
  • iso639-3: iso639-3 语言标识符。
  • iso15924: iso15924 语言标识符。
  • bcp47: BCP 47 语言标识符。

数据分割

仅包含一个 train 分割,其中包括所有语言的完整文档。

train
样本数量 488

数据集创建

策划理由

除了其社会意义外,该文件在1999年创下了世界上被翻译最多的文件的世界纪录,因此对于需要多种语言配对文本的场景非常有用。

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者是谁?

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者是谁?

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据集的注意事项

数据集的社会影响

除了联合国《世界人权宣言》的社会和政治意义外,该文件在1999年创下了世界上被翻译最多的文件的世界纪录,因此对于需要多种语言配对文本的场景非常有用,包括那些在自然语言处理研究中严重不足的低资源语言。

偏见的讨论

[更多信息需补充]

其他已知限制

尽管该文件被翻译成非常多的语言,但文本非常短,因此对于大多数类型的建模和评估可能用途有限。

附加信息

数据集策展人

这里的txt/xml数据文件由Unicode Consortium编译,可以在这里找到。原始文本可以在联合国网站上找到。

许可信息

源文本 © 1996 – 2022 联合国人权事务高级专员办事处

这些翻译适用于Unicode许可

引用信息

United Nations. (1998). The Universal Declaration of Human Rights, 1948-1998. New York: United Nations Dept. of Public Information.

贡献

感谢 @joeddav 添加此数据集。更新于2022年5月 @leondz

搜集汇总
背景与挑战
背景概述
该数据集收录了《世界人权宣言》的400多种语言翻译版本,包含完整文本和语言标识信息,适用于翻译任务,但文本长度较短可能影响建模和评估的实用性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作