five

Orange/paraqa-sparqltotext

收藏
Hugging Face2024-01-11 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Orange/paraqa-sparqltotext
下载链接
链接失效反馈
官方服务:
资源简介:
ParaQA-SPARQLtoText数据集是ParaQA的一个特殊版本,专门为SPARQL-to-Text任务格式化SPARQL查询。该数据集包含一个新字段`simplified_query`,该字段通过对`query`字段进行一系列处理得到,包括替换URI为更简单的格式、分隔符的间距处理、变量名的随机化和子句的重新排列。此外,数据集还引入了一个新的验证集`valid`,该验证集从测试集中随机抽取,占整个数据集的10%。数据集的语言为英语。

ParaQA-SPARQLtoText数据集是ParaQA的一个特殊版本,专门为SPARQL-to-Text任务格式化SPARQL查询。该数据集包含一个新字段`simplified_query`,该字段通过对`query`字段进行一系列处理得到,包括替换URI为更简单的格式、分隔符的间距处理、变量名的随机化和子句的重新排列。此外,数据集还引入了一个新的验证集`valid`,该验证集从测试集中随机抽取,占整个数据集的10%。数据集的语言为英语。
提供机构:
Orange
原始信息汇总

数据集概述

数据集信息

特征

  • uid: 字符串类型
  • query: 字符串类型
  • question: 字符串类型
  • simplified_query: 字符串类型
  • answer: 字符串类型
  • verbalized_answer: 字符串类型
  • verbalized_answer_2: 字符串类型
  • verbalized_answer_3: 字符串类型
  • verbalized_answer_4: 字符串类型
  • verbalized_answer_5: 字符串类型
  • verbalized_answer_6: 字符串类型
  • verbalized_answer_7: 字符串类型
  • verbalized_answer_8: 字符串类型

数据分割

  • train: 3500个样本,2540548字节
  • validation: 500个样本,369571字节
  • test: 1000个样本,722302字节

数据集大小

  • 下载大小: 1750172字节
  • 数据集大小: 3632421字节

任务类别

  • 对话
  • 问答
  • 文本生成
  • 文本到文本生成

标签

  • qa
  • knowledge-graph
  • sparql

数据集描述

数据集摘要

  • 特殊版本的ParaQA,用于SPARQL-to-Text任务的SPARQL查询格式化。

新字段 simplified_query

  • 新字段名为"simplified_query",通过对"query"字段进行以下步骤生成:
    • 替换URI为带有前缀"resource:"、"property:"和"ontology:"的简单格式。
    • 间隔分隔符(, {, ., }, )
    • 随机化变量名。
    • 打乱子句顺序。

新分割 "valid"

  • 从测试集中随机提取的验证集,占整个数据集的10%。

语言

  • 英语

数据集结构

问题类型

  • 比较了与相关数据集的问题类型。

数据分割

  • 文本表述仅在测试集的一个子集(称为挑战集)中可用。其他样本仅包含对话形式的后续sparql查询。
Train Validation Test
Questions 3,500 500 1,000
NL question per query 1
Characters per query 103 (± 27)
Tokens per question 10.3 (± 3.7)

附加信息

相关数据集

  • 该语料库是用于SPARQL-to-Text生成的5个数据集之一。

许可信息

  • 原始数据集内容:CC-BY 4.0
  • 新内容:CC BY-SA 4.0

引用信息

  • 该版本的语料库(带有标准化SPARQL查询)
  • 原始版本
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作