luheng/qa_srl
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/luheng/qa_srl
下载链接
链接失效反馈官方服务:
资源简介:
QA-SRL数据集通过一组问答对来建模句子的谓词-论元结构。该方法允许大规模标注训练数据,并侧重于语义而非句法标注。数据集包含句子、句子ID、谓词索引、谓词、问题和答案等字段,分为训练集、验证集和测试集。数据集仅包含Wikipedia数据,注释过程由非专家注释者完成。
QA-SRL数据集通过一组问答对来建模句子的谓词-论元结构。该方法允许大规模标注训练数据,并侧重于语义而非句法标注。数据集包含句子、句子ID、谓词索引、谓词、问题和答案等字段,分为训练集、验证集和测试集。数据集仅包含Wikipedia数据,注释过程由非专家注释者完成。
提供机构:
luheng
原始信息汇总
数据集概述
数据集基本信息
- 名称: QA-SRL
- 语言: 英语
- 许可证: 未知
- 多语言性: 单语
- 大小: 10K<n<100K
- 源数据集: 原始
- 任务类别: 问答
- 任务ID: 多选题问答, 开放领域问答
- 论文代码ID: qa-srl
- 美观名称: QA-SRL
数据集结构
数据实例
- 模型: 使用问答对来模拟句子中的动词谓词-论元结构。
- 示例: 每个实例包含谓词、问题和答案。
数据字段
- sentence: 字符串类型,包含分词后的句子。
- sent_id: 字符串类型,句子标识符。
- predicate_idx: 整数类型,谓词在句子中的位置。
- predicate: 字符串类型,谓词词条。
- question: 序列字符串类型,包含问题,问题由七个槽位组成,空槽位用“_”表示。
- answers: 序列字符串类型,包含问题的答案。
数据分割
- 训练集: 6414个实例,1835549字节。
- 验证集: 2183个实例,632992字节。
- 测试集: 2201个实例,637317字节。
- 总下载大小: 1087729字节。
- 数据集总大小: 3105858字节。
数据集创建
注释过程
- 注释者: 10名兼职非专家注释者。
- 筛选过程: 注释者通过简短教程和样本注释进行筛选,整个过程不超过2小时。
源数据
- 数据收集: 共注释了超过3000个句子,近8000个动词,涵盖新聞和维基百科两个领域。
搜集汇总
数据集介绍

背景与挑战
背景概述
QA-SRL数据集通过问答对建模句子谓词-论元结构,专注于语义标注,包含英语文本,规模在10K到100K之间。数据集分为新闻专线和维基百科两个领域,但仅维基百科数据可用,标注由非专业标注员完成。
以上内容由遇见数据集搜集并总结生成



