Orange/paraqa-sparqltotext
收藏Hugging Face2024-01-11 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Orange/paraqa-sparqltotext
下载链接
链接失效反馈官方服务:
资源简介:
ParaQA-SPARQLtoText数据集是ParaQA的一个特殊版本,专门为SPARQL-to-Text任务格式化SPARQL查询。该数据集包含一个新字段`simplified_query`,该字段通过对`query`字段进行一系列处理得到,包括替换URI为更简单的格式、分隔符的间距处理、变量名的随机化和子句的重新排列。此外,数据集还引入了一个新的验证集`valid`,该验证集从测试集中随机抽取,占整个数据集的10%。数据集的语言为英语。
ParaQA-SPARQLtoText数据集是ParaQA的一个特殊版本,专门为SPARQL-to-Text任务格式化SPARQL查询。该数据集包含一个新字段`simplified_query`,该字段通过对`query`字段进行一系列处理得到,包括替换URI为更简单的格式、分隔符的间距处理、变量名的随机化和子句的重新排列。此外,数据集还引入了一个新的验证集`valid`,该验证集从测试集中随机抽取,占整个数据集的10%。数据集的语言为英语。
提供机构:
Orange
原始信息汇总
数据集概述
数据集信息
特征
- uid: 字符串类型
- query: 字符串类型
- question: 字符串类型
- simplified_query: 字符串类型
- answer: 字符串类型
- verbalized_answer: 字符串类型
- verbalized_answer_2: 字符串类型
- verbalized_answer_3: 字符串类型
- verbalized_answer_4: 字符串类型
- verbalized_answer_5: 字符串类型
- verbalized_answer_6: 字符串类型
- verbalized_answer_7: 字符串类型
- verbalized_answer_8: 字符串类型
数据分割
- train: 3500个样本,2540548字节
- validation: 500个样本,369571字节
- test: 1000个样本,722302字节
数据集大小
- 下载大小: 1750172字节
- 数据集大小: 3632421字节
任务类别
- 对话
- 问答
- 文本生成
- 文本到文本生成
标签
- qa
- knowledge-graph
- sparql
数据集描述
数据集摘要
- 特殊版本的ParaQA,用于SPARQL-to-Text任务的SPARQL查询格式化。
新字段 simplified_query
- 新字段名为"simplified_query",通过对"query"字段进行以下步骤生成:
- 替换URI为带有前缀"resource:"、"property:"和"ontology:"的简单格式。
- 间隔分隔符
(,{,.,},)。 - 随机化变量名。
- 打乱子句顺序。
新分割 "valid"
- 从测试集中随机提取的验证集,占整个数据集的10%。
语言
- 英语
数据集结构
问题类型
- 比较了与相关数据集的问题类型。
数据分割
- 文本表述仅在测试集的一个子集(称为挑战集)中可用。其他样本仅包含对话形式的后续sparql查询。
| Train | Validation | Test | |
|---|---|---|---|
| Questions | 3,500 | 500 | 1,000 |
| NL question per query | 1 | ||
| Characters per query | 103 (± 27) | ||
| Tokens per question | 10.3 (± 3.7) |
附加信息
相关数据集
- 该语料库是用于SPARQL-to-Text生成的5个数据集之一。
许可信息
- 原始数据集内容:CC-BY 4.0
- 新内容:CC BY-SA 4.0
引用信息
- 该版本的语料库(带有标准化SPARQL查询)
- 原始版本



