tushar117/xalign

Name: tushar117/xalign
Creator: tushar117
Published: 2023-01-01 20:39:30
License: 暂无描述

Hugging Face2023-01-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tushar117/xalign

下载链接

链接失效反馈

官方服务：

资源简介：

XAlign数据集是一个高质量的多语言事实到文本对齐数据集，其中事实以英语表示，对应的句子则以多种低资源语言表示，主要用于人物传记。训练和验证集通过远程监督方法创建，测试数据则通过人工注释生成。该数据集支持跨语言的数据到文本生成任务，并可用于关系提取任务。数据集包含12种语言，包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语和英语。每个数据实例包含一个句子、相关的事实列表以及语言标识符。数据集分为训练集、验证集和测试集，分别包含499155、55469和7425个实例。

提供机构：

tushar117

原始信息汇总

数据集概述

数据集名称

名称: XAlign
别名: 无
ID: xalign

数据集基本信息

描述: XAlign是一个高质量的跨语言事实到文本数据集，其中事实以英语表示，对应的句子则是以本地语言表示的人物传记。
语言: 包括Assamese (as), Bengali (bn), Gujarati (gu), Hindi (hi), Kannada (kn), Malayalam (ml), Marathi (mr), Oriya (or), Punjabi (pa), Tamil (ta), Telugu (te), 和 English (en)。
许可证: cc-by-nc-sa-4.0, MIT
多语言性: 多语言
大小: 100K<n<1M
来源: 原始数据
标签: xalign, NLG, low-resource, LRL
任务类别: table-to-text
任务ID: rdf-to-text

数据集结构

数据实例: 每个实例包含sentence（本地语言维基百科句子）、facts（与句子关联的事实列表，每个事实以字典形式存储）、language（语言标识符）。
数据字段: 每个事实字典包含subject（中心实体）、predicate（连接主体和客体的关系）、object（关于主体的实体或信息）、qualifiers（提供关于事实额外信息的字典列表）。
数据分割: 数据集分为训练集（499155个实例）、验证集（55469个实例）和测试集（7425个实例）。

数据集创建

创建理由: 大多数现有的数据到文本数据集仅提供英语版本，且针对低资源语言的结构化Wikidata条目数量较少。XAlign数据集旨在创建跨语言数据到文本生成系统，该系统接受一组英语事实作为输入，并生成指定语言的句子，捕捉事实语义。
源数据: 数据集的创建始于从Wikidata中选出的约95K个人实体，每个实体至少有一个对应的维基百科页面链接。事实（英语）从Wikidata提取，句子从维基百科XML转储中提取。
注释过程: 测试集的手动注释分为两个阶段，由专家和经过筛选的翻译者完成。

使用数据注意事项

社会影响: 该数据集旨在帮助开发跨语言数据到文本生成系统，这些系统对于自动对话系统、特定领域聊天机器人、开放领域问答等NLP应用至关重要。
已知限制: XAlign数据集仅关注人物传记，基于此数据集开发的系统可能不适用于其他领域。

附加信息

数据集管理员: 由Tushar Abhishek, Shivprasad Sagare, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta 和 Vasudeva Varma 收集。
许可证信息: 数据集根据MIT许可证发布。
引用信息: 请参考提供的引用格式。
贡献者: 感谢所有参与数据集创建的贡献者，包括来自国家翻译任务的注释者。

5,000+

优质数据集

54 个

任务类型

进入经典数据集