WHUIR/matinf
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/WHUIR/matinf
下载链接
链接失效反馈官方服务:
资源简介:
MATINF是第一个联合标注的大规模数据集,适用于分类、问答和摘要生成任务。该数据集包含107万个问答对,带有用户生成的问题描述和人工标注的类别。基于这些丰富的信息,MATINF适用于三大NLP任务:分类、问答和摘要生成。数据集包括四个配置:age_classification(年龄分类)、topic_classification(主题分类)、summarization(摘要生成)和qa(问答)。每个配置都有详细的数据字段和分割信息。
MATINF是第一个联合标注的大规模数据集,适用于分类、问答和摘要生成任务。该数据集包含107万个问答对,带有用户生成的问题描述和人工标注的类别。基于这些丰富的信息,MATINF适用于三大NLP任务:分类、问答和摘要生成。数据集包括四个配置:age_classification(年龄分类)、topic_classification(主题分类)、summarization(摘要生成)和qa(问答)。每个配置都有详细的数据字段和分割信息。
提供机构:
WHUIR
原始信息汇总
数据集卡片 "matinf"
数据集描述
数据集概述
MATINF 是一个联合标注的大型数据集,适用于分类、问答和摘要任务。该数据集包含 107 万个问题-答案对,具有人工标注的类别和用户生成的问题描述。基于这些丰富的信息,MATINF 适用于三大自然语言处理任务,包括分类、问答和摘要。
数据集结构
数据实例
age_classification
- 大小: 48.39 MB
- 示例: json { "description": "6个月的时候去儿宝检查,医生说宝宝的分胯动作做的不好,说最好去儿童医院看看,但我家宝宝很好,感觉没有什么不正常啊,请教一下,分胯做的不好,有什么不好吗?", "id": 88016, "label": 0, "question": "医生说宝宝的分胯动作不好" }
qa
- 大小: 268.69 MB
- 示例: json { "answer": "我一个同学的孩子就是发现了肾积水,治疗了一段时间,结果还是越来越多,没办法就打掉了。虽然舍不得,但是还是要忍痛割爱,不然以后孩子真的有问题,大人和孩子都受罪。不过,这个最后的决定还要你自己做,毕竟是你的宝宝。", "id": 536714, "question": "孕5个月检查右侧肾积水孩子能要吗?" }
summarization
- 大小: 258.88 MB
- 示例: json { "description": "宝宝有中度HIE,但原因未查明,这是他出生后脸上红的几道,嘴唇深红近紫,请问这是像缺氧的表现吗?", "id": 173649, "question": "宝宝脸上红的几道嘴唇深红近紫是像缺氧的表现吗?" }
topic_classification
- 大小: 219.04 MB
- 示例: json { "description": "媳妇怀孕五个月了经检查右侧肾积水、过了半月左侧也出现肾积水、她要拿掉孩子、怎么办?", "id": 536714, "label": 8, "question": "孕5个月检查右侧肾积水孩子能要吗?" }
数据字段
age_classification
question: 字符串特征。description: 字符串特征。label: 分类标签,可能值包括0-1岁(0),1-2岁(1),2-3岁(2)。id: 整数特征。
qa
question: 字符串特征。answer: 字符串特征。id: 整数特征。
summarization
description: 字符串特征。question: 字符串特征。id: 整数特征。
topic_classification
question: 字符串特征。description: 字符串特征。label: 分类标签,可能值包括产褥期保健(0),儿童过敏(1),动作发育(2),婴幼保健(3),婴幼心理(4)。id: 整数特征。
数据分割
| 名称 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| age_classification | 134852 | 19323 | 38318 |
| qa | 747888 | 106842 | 213681 |
| summarization | 747888 | 106842 | 213681 |
| topic_classification | 613036 | 87519 | 175363 |



