five

luheng/qa_srl

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/luheng/qa_srl
下载链接
链接失效反馈
官方服务:
资源简介:
QA-SRL数据集通过一组问答对来建模句子的谓词-论元结构。该方法允许大规模标注训练数据,并侧重于语义而非句法标注。数据集包含句子、句子ID、谓词索引、谓词、问题和答案等字段,分为训练集、验证集和测试集。数据集仅包含Wikipedia数据,注释过程由非专家注释者完成。

QA-SRL数据集通过一组问答对来建模句子的谓词-论元结构。该方法允许大规模标注训练数据,并侧重于语义而非句法标注。数据集包含句子、句子ID、谓词索引、谓词、问题和答案等字段,分为训练集、验证集和测试集。数据集仅包含Wikipedia数据,注释过程由非专家注释者完成。
提供机构:
luheng
原始信息汇总

数据集概述

数据集基本信息

  • 名称: QA-SRL
  • 语言: 英语
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 源数据集: 原始
  • 任务类别: 问答
  • 任务ID: 多选题问答, 开放领域问答
  • 论文代码ID: qa-srl
  • 美观名称: QA-SRL

数据集结构

数据实例

  • 模型: 使用问答对来模拟句子中的动词谓词-论元结构。
  • 示例: 每个实例包含谓词、问题和答案。

数据字段

  • sentence: 字符串类型,包含分词后的句子。
  • sent_id: 字符串类型,句子标识符。
  • predicate_idx: 整数类型,谓词在句子中的位置。
  • predicate: 字符串类型,谓词词条。
  • question: 序列字符串类型,包含问题,问题由七个槽位组成,空槽位用“_”表示。
  • answers: 序列字符串类型,包含问题的答案。

数据分割

  • 训练集: 6414个实例,1835549字节。
  • 验证集: 2183个实例,632992字节。
  • 测试集: 2201个实例,637317字节。
  • 总下载大小: 1087729字节。
  • 数据集总大小: 3105858字节。

数据集创建

注释过程

  • 注释者: 10名兼职非专家注释者。
  • 筛选过程: 注释者通过简短教程和样本注释进行筛选,整个过程不超过2小时。

源数据

  • 数据收集: 共注释了超过3000个句子,近8000个动词,涵盖新聞和维基百科两个领域。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
QA-SRL数据集通过问答对建模句子谓词-论元结构,专注于语义标注,包含英语文本,规模在10K到100K之间。数据集分为新闻专线和维基百科两个领域,但仅维基百科数据可用,标注由非专业标注员完成。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作