five

WHUIR/matinf

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/WHUIR/matinf
下载链接
链接失效反馈
官方服务:
资源简介:
MATINF是第一个联合标注的大规模数据集,适用于分类、问答和摘要生成任务。该数据集包含107万个问答对,带有用户生成的问题描述和人工标注的类别。基于这些丰富的信息,MATINF适用于三大NLP任务:分类、问答和摘要生成。数据集包括四个配置:age_classification(年龄分类)、topic_classification(主题分类)、summarization(摘要生成)和qa(问答)。每个配置都有详细的数据字段和分割信息。

MATINF是第一个联合标注的大规模数据集,适用于分类、问答和摘要生成任务。该数据集包含107万个问答对,带有用户生成的问题描述和人工标注的类别。基于这些丰富的信息,MATINF适用于三大NLP任务:分类、问答和摘要生成。数据集包括四个配置:age_classification(年龄分类)、topic_classification(主题分类)、summarization(摘要生成)和qa(问答)。每个配置都有详细的数据字段和分割信息。
提供机构:
WHUIR
原始信息汇总

数据集卡片 "matinf"

数据集描述

数据集概述

MATINF 是一个联合标注的大型数据集,适用于分类、问答和摘要任务。该数据集包含 107 万个问题-答案对,具有人工标注的类别和用户生成的问题描述。基于这些丰富的信息,MATINF 适用于三大自然语言处理任务,包括分类、问答和摘要。

数据集结构

数据实例

age_classification

  • 大小: 48.39 MB
  • 示例: json { "description": "6个月的时候去儿宝检查,医生说宝宝的分胯动作做的不好,说最好去儿童医院看看,但我家宝宝很好,感觉没有什么不正常啊,请教一下,分胯做的不好,有什么不好吗?", "id": 88016, "label": 0, "question": "医生说宝宝的分胯动作不好" }

qa

  • 大小: 268.69 MB
  • 示例: json { "answer": "我一个同学的孩子就是发现了肾积水,治疗了一段时间,结果还是越来越多,没办法就打掉了。虽然舍不得,但是还是要忍痛割爱,不然以后孩子真的有问题,大人和孩子都受罪。不过,这个最后的决定还要你自己做,毕竟是你的宝宝。", "id": 536714, "question": "孕5个月检查右侧肾积水孩子能要吗?" }

summarization

  • 大小: 258.88 MB
  • 示例: json { "description": "宝宝有中度HIE,但原因未查明,这是他出生后脸上红的几道,嘴唇深红近紫,请问这是像缺氧的表现吗?", "id": 173649, "question": "宝宝脸上红的几道嘴唇深红近紫是像缺氧的表现吗?" }

topic_classification

  • 大小: 219.04 MB
  • 示例: json { "description": "媳妇怀孕五个月了经检查右侧肾积水、过了半月左侧也出现肾积水、她要拿掉孩子、怎么办?", "id": 536714, "label": 8, "question": "孕5个月检查右侧肾积水孩子能要吗?" }

数据字段

age_classification

  • question: 字符串特征。
  • description: 字符串特征。
  • label: 分类标签,可能值包括 0-1岁 (0), 1-2岁 (1), 2-3岁 (2)。
  • id: 整数特征。

qa

  • question: 字符串特征。
  • answer: 字符串特征。
  • id: 整数特征。

summarization

  • description: 字符串特征。
  • question: 字符串特征。
  • id: 整数特征。

topic_classification

  • question: 字符串特征。
  • description: 字符串特征。
  • label: 分类标签,可能值包括 产褥期保健 (0), 儿童过敏 (1), 动作发育 (2), 婴幼保健 (3), 婴幼心理 (4)。
  • id: 整数特征。

数据分割

名称 训练集 验证集 测试集
age_classification 134852 19323 38318
qa 747888 106842 213681
summarization 747888 106842 213681
topic_classification 613036 87519 175363
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作