2022全国新冠疫情管控期间基于调查文本的流调场景用户画像数据集
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=685817c5195d264c3e82211f&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集整理并重新标记了流调场景下的流调员与被调查人员间的对话,被调查人员采用熟悉的口语化表述方式回答固定模版的提问并被记录,根据流调场景的特点设计了用户画像体系,并提供了基于对话内容和画像体系构建的用户画像标注,用于训练和评估流调场景下的画像构建模型的性能。
·数据集来源:项目牵头单位中国疾控中心提供的流调数据。
·数据生成时间:2020-2022年全国新冠疫情管控期间。
·数据采集地点:流调现场及后期复盘流调场景。
·数据内容:文本形式的对话记录、语音转录得到的文本、调查报告等内容的第三人称转述。
·数据处理:经过人工整理、去除无关或错误表述、数据脱敏、手工标注及二次核验操作。
·数据量:本数据集包含300个用户画像记录及标签。
·数据形式:文本记录。
·数据生成设备:流调现场的信息采集设备(摄像机、录音笔、计算机、手机等),以及后期处理过程中所使用的信息设备(个人计算机、服务器集群等)。
提供机构:
深圳市腾讯计算机系统有限公司



