five

tushar117/xalign

收藏
Hugging Face2023-01-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tushar117/xalign
下载链接
链接失效反馈
官方服务:
资源简介:
XAlign数据集是一个高质量的多语言事实到文本对齐数据集,其中事实以英语表示,对应的句子则以多种低资源语言表示,主要用于人物传记。训练和验证集通过远程监督方法创建,测试数据则通过人工注释生成。该数据集支持跨语言的数据到文本生成任务,并可用于关系提取任务。数据集包含12种语言,包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语和英语。每个数据实例包含一个句子、相关的事实列表以及语言标识符。数据集分为训练集、验证集和测试集,分别包含499155、55469和7425个实例。
提供机构:
tushar117
原始信息汇总

数据集概述

数据集名称

  • 名称: XAlign
  • 别名: 无
  • ID: xalign

数据集基本信息

  • 描述: XAlign是一个高质量的跨语言事实到文本数据集,其中事实以英语表示,对应的句子则是以本地语言表示的人物传记。
  • 语言: 包括Assamese (as), Bengali (bn), Gujarati (gu), Hindi (hi), Kannada (kn), Malayalam (ml), Marathi (mr), Oriya (or), Punjabi (pa), Tamil (ta), Telugu (te), 和 English (en)。
  • 许可证: cc-by-nc-sa-4.0, MIT
  • 多语言性: 多语言
  • 大小: 100K<n<1M
  • 来源: 原始数据
  • 标签: xalign, NLG, low-resource, LRL
  • 任务类别: table-to-text
  • 任务ID: rdf-to-text

数据集结构

  • 数据实例: 每个实例包含sentence(本地语言维基百科句子)、facts(与句子关联的事实列表,每个事实以字典形式存储)、language(语言标识符)。
  • 数据字段: 每个事实字典包含subject(中心实体)、predicate(连接主体和客体的关系)、object(关于主体的实体或信息)、qualifiers(提供关于事实额外信息的字典列表)。
  • 数据分割: 数据集分为训练集(499155个实例)、验证集(55469个实例)和测试集(7425个实例)。

数据集创建

  • 创建理由: 大多数现有的数据到文本数据集仅提供英语版本,且针对低资源语言的结构化Wikidata条目数量较少。XAlign数据集旨在创建跨语言数据到文本生成系统,该系统接受一组英语事实作为输入,并生成指定语言的句子,捕捉事实语义。
  • 源数据: 数据集的创建始于从Wikidata中选出的约95K个人实体,每个实体至少有一个对应的维基百科页面链接。事实(英语)从Wikidata提取,句子从维基百科XML转储中提取。
  • 注释过程: 测试集的手动注释分为两个阶段,由专家和经过筛选的翻译者完成。

使用数据注意事项

  • 社会影响: 该数据集旨在帮助开发跨语言数据到文本生成系统,这些系统对于自动对话系统、特定领域聊天机器人、开放领域问答等NLP应用至关重要。
  • 已知限制: XAlign数据集仅关注人物传记,基于此数据集开发的系统可能不适用于其他领域。

附加信息

  • 数据集管理员: 由Tushar Abhishek, Shivprasad Sagare, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta 和 Vasudeva Varma 收集。
  • 许可证信息: 数据集根据MIT许可证发布。
  • 引用信息: 请参考提供的引用格式。
  • 贡献者: 感谢所有参与数据集创建的贡献者,包括来自国家翻译任务的注释者。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作