2022全国新冠疫情管控期间基于调查文本的流调关键要素自动抽取数据集

Name: 2022全国新冠疫情管控期间基于调查文本的流调关键要素自动抽取数据集
Creator: 深圳市腾讯计算机系统有限公司
License: 暂无描述

国家基础学科公共科学数据中心2026-01-30 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=685817ca195d264c3e822124&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集整理并重新标记了流调场景下的流调员与被调查人员间的对话，被调查人员采用熟悉的口语化表述方式回答固定模版的提问并被记录，根据流调场景的特点和信息采集的功能需求确定了需要采集的实体信息类别及标准化的归类体系，并提供了每条文本对应的实体提取标签，用于训练和评估流调场景下要素自动抽取模型的性能。 ·数据集来源：项目牵头单位中国疾控中心提供的流调数据。 ·数据生成时间：2020-2022年全国新冠疫情管控期间。 ·数据采集地点：流调现场及后期复盘流调场景。 ·数据内容：文本形式的对话记录、语音转录得到的文本、调查报告等内容的第三人称转述。 ·数据处理：经过人工整理、去除无关或错误表述、数据脱敏、手工标注及二次核验操作。 ·数据量：本数据集包含20000条用户对话文本记录及流调要素标签。 ·数据形式：文本记录。 ·数据生成设备：流调现场的信息采集设备（摄像机、录音笔、计算机、手机等），以及后期处理过程中所使用的信息设备（个人计算机、服务器集群等）。

提供机构：

深圳市腾讯计算机系统有限公司

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集基于2020-2022年全国新冠疫情管控期间的流调对话文本，整理并标注了20000条口语化表述的记录，用于训练和评估流调关键要素自动抽取模型。数据来源于中国疾控中心，经过人工处理、脱敏和核验，涵盖实体信息类别和标准化标签。

以上内容由遇见数据集搜集并总结生成