iamrishiraj/com_qa
收藏Hugging Face2024-02-07 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/iamrishiraj/com_qa
下载链接
链接失效反馈官方服务:
资源简介:
ComQA是一个包含11,214个问题的数据集,这些问题是从WikiAnswers社区问答网站收集的。数据集中的问题具有多种挑战性现象,如需要时间推理、比较、组合性和无法回答的问题。通过众包努力,问题被分组为4,834个表达相同信息需求的释义簇,每个簇都标注了答案。答案以Wikipedia实体的形式提供,对于时间或可测量量,使用TIMEX3和国际单位制(SI)进行标准化。
ComQA是一个包含11,214个问题的数据集,这些问题是从WikiAnswers社区问答网站收集的。数据集中的问题具有多种挑战性现象,如需要时间推理、比较、组合性和无法回答的问题。通过众包努力,问题被分组为4,834个表达相同信息需求的释义簇,每个簇都标注了答案。答案以Wikipedia实体的形式提供,对于时间或可测量量,使用TIMEX3和国际单位制(SI)进行标准化。
提供机构:
iamrishiraj
原始信息汇总
数据集概述
数据集名称
- 名称: ComQA
- 别名: com_qa
数据集信息
- 语言: 英语 (en)
- 许可证: 未知
- 任务类别: 问答
- 论文ID: comqa
数据集特征
- cluster_id: 字符串类型
- questions: 字符串序列
- answers: 字符串序列
数据集结构
- 训练集: 3966个样本,占用692932字节
- 测试集: 2243个样本,占用271554字节
- 验证集: 966个样本,占用131129字节
- 下载大小: 474169字节
- 数据集大小: 1095615字节
数据集配置
- 默认配置:
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*
- 验证数据路径: data/validation-*
数据集描述
- 概述: ComQA包含11,214个问题,来自WikiAnswers社区问答网站。数据集通过大规模众包努力,将问题分组为4,834个同义表达集群,每个集群都标注了答案。答案尽可能采用Wikipedia实体形式,对于时间或可测量量,使用TIMEX3和国际单位制(SI)进行标准化。
数据集示例
json { "answers": ["https://en.wikipedia.org/wiki/north_sea"], "cluster_id": "cluster-922", "questions": ["what sea separates the scandinavia peninsula from britain?", "which sea separates britain from scandinavia?"] }
数据集分割
| 名称 | 训练 | 验证 | 测试 |
|---|---|---|---|
| 默认配置 | 3966 | 966 | 2243 |
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



