drt/complex_web_questions|自然语言处理数据集|问答系统数据集
收藏数据集卡片 - ComplexWebQuestions
数据集描述
数据集概述
用于回答需要通过多个网页片段进行推理的复杂问题的数据集
ComplexWebQuestions 是一个包含大量自然语言复杂问题的新数据集,可用于多种方式:
- 通过与搜索引擎交互,这是我们论文的重点(Talmor 和 Berant, 2018);
- 作为阅读理解任务:我们发布了 12,725,989 个与问题相关的网页片段,这些片段是在我们模型开发过程中收集的;
- 作为语义解析任务:每个问题都配有一个可以针对 Freebase 执行的 SPARQL 查询以检索答案。
支持的任务和排行榜
[更多信息需要]
语言
- 英语
数据集结构
问题文件
数据集包含 34,689 个示例,分为 27,734 个训练集、3,480 个开发集和 3,475 个测试集。每个示例包含以下字段:
"ID": 示例的唯一 ID; "webqsp_ID": 问题构建的原始 WebQuestionsSP ID; "webqsp_question": 问题构建的原始 WebQuestionsSP 问题; "machine_question": 改写前的复杂人工问题; "question": 自然语言的复杂问题; "sparql": 针对该问题的 Freebase SPARQL 查询。注意,SPARQL 是为人工问题构建的,改写后的实际问题可能与 SPARQL 不同; "compositionality_type": 组合类型的估计。{composition, conjunction, comparative, superlative}。该估计未经过人工验证,改写后的问题可能与此估计不同; "answers": 包含答案的列表,每个答案包含 answer: 实际答案;answer_id: Freebase 答案 ID;aliases: Freebase 提取的答案别名; "created": 创建时间
注意:测试集不包含“answer”字段。对于测试评估,请发送电子邮件至 alontalmor@mail.tau.ac.il。
网页片段文件
网页片段文件包含 12,725,989 个片段,每个片段包含以下字段:
"question_ID": 相关问题的 ID,至少包含 3 个相同 ID 的实例(完整问题、split1、split2); "question": 自然语言的复杂问题; "web_query": 发送到搜索引擎的查询; “split_source”: noisy supervision split 或 ‘ptrnet split’,请在比较 Split+Decomp 时使用包含“ptrnet split”的示例进行训练; “split_type”: full_question 或 ‘split_part1 或 ‘split_part2’,请在组合类型的问题和 split_type: “split_part1” 的情况下使用“composition_answer”进行阅读理解模型的训练,如 Split+Decomp 所述; "web_snippets": 每个查询约 100 个网页片段。每个片段包括 Title, Snippet。它们按照 Google 结果排序。
总计:
- 10,035,571 个训练集片段
- 1,350,950 个开发集片段
- 1,339,468 个测试集片段
源数据
原始文件可以在 Dropbox 链接 找到。
许可信息
未指定
引用信息
@inproceedings{talmor2018web, title={The Web as a Knowledge-Base for Answering Complex Questions}, author={Talmor, Alon and Berant, Jonathan}, booktitle={Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)}, pages={641--651}, year={2018} }
贡献
感谢 happen2me 为该数据集做出的贡献。




