Stanford Schema2QA Dataset
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Stanford_Schema2QA_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
“Schema2QA 是第一个基于真实 Schema.org 数据的大型问答数据集。它涵盖 6 个常见领域:餐馆、酒店、人物、电影、书籍和音乐,基于从 6 个不同的爬取的 Schema.org 元数据网站(Yelp、Hyatt、LinkedIn、IMDb、Goodreads 和 last.fm。)。总共有超过 2,000,000 个用于训练的示例,包括增强的人类释义数据和 Genie 生成的高质量合成数据。所有问题都是使用可执行的虚拟助手编程语言 ThingTalk 进行注释。Schema2QA 包括从众包工人那里收集的具有挑战性的评估问题。工人只被提示领域是什么以及支持哪些属性。因此,句子自然而多样。它们还包含训练期间看不见的实体. 收集的句子由作者手动使用 ThingTalk 进行注释。总共有超过 5,000 个示例用于开发和测试。
提供机构:
OpenDataLab
创建时间:
2022-05-09
搜集汇总
数据集介绍

背景与挑战
背景概述
Stanford Schema2QA Dataset是一个基于真实Schema.org元数据的大型问答数据集,覆盖餐馆、酒店等6个常见领域。它包含超过200万训练示例,使用ThingTalk进行注释,并提供了5000多个用于评估的多样化问题。
以上内容由遇见数据集搜集并总结生成



