five

iamrishiraj/com_qa

收藏
Hugging Face2024-02-07 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/iamrishiraj/com_qa
下载链接
链接失效反馈
官方服务:
资源简介:
ComQA是一个包含11,214个问题的数据集,这些问题是从WikiAnswers社区问答网站收集的。数据集中的问题具有多种挑战性现象,如需要时间推理、比较、组合性和无法回答的问题。通过众包努力,问题被分组为4,834个表达相同信息需求的释义簇,每个簇都标注了答案。答案以Wikipedia实体的形式提供,对于时间或可测量量,使用TIMEX3和国际单位制(SI)进行标准化。

ComQA是一个包含11,214个问题的数据集,这些问题是从WikiAnswers社区问答网站收集的。数据集中的问题具有多种挑战性现象,如需要时间推理、比较、组合性和无法回答的问题。通过众包努力,问题被分组为4,834个表达相同信息需求的释义簇,每个簇都标注了答案。答案以Wikipedia实体的形式提供,对于时间或可测量量,使用TIMEX3和国际单位制(SI)进行标准化。
提供机构:
iamrishiraj
原始信息汇总

数据集概述

数据集名称

  • 名称: ComQA
  • 别名: com_qa

数据集信息

  • 语言: 英语 (en)
  • 许可证: 未知
  • 任务类别: 问答
  • 论文ID: comqa

数据集特征

  • cluster_id: 字符串类型
  • questions: 字符串序列
  • answers: 字符串序列

数据集结构

  • 训练集: 3966个样本,占用692932字节
  • 测试集: 2243个样本,占用271554字节
  • 验证集: 966个样本,占用131129字节
  • 下载大小: 474169字节
  • 数据集大小: 1095615字节

数据集配置

  • 默认配置:
    • 训练数据路径: data/train-*
    • 测试数据路径: data/test-*
    • 验证数据路径: data/validation-*

数据集描述

  • 概述: ComQA包含11,214个问题,来自WikiAnswers社区问答网站。数据集通过大规模众包努力,将问题分组为4,834个同义表达集群,每个集群都标注了答案。答案尽可能采用Wikipedia实体形式,对于时间或可测量量,使用TIMEX3和国际单位制(SI)进行标准化。

数据集示例

json { "answers": ["https://en.wikipedia.org/wiki/north_sea"], "cluster_id": "cluster-922", "questions": ["what sea separates the scandinavia peninsula from britain?", "which sea separates britain from scandinavia?"] }

数据集分割

名称 训练 验证 测试
默认配置 3966 966 2243
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作