Help

github2025-10-21 更新2025-10-22 收录

下载链接：

https://github.com/ResearchHubZ/private-dataset-Help

下载链接

链接失效反馈

官方服务：

资源简介：

Help数据集采用分层抽样方法构建，覆盖2024年全年13个城市。样本数据涵盖不同年龄组和职业背景个体的需求，包括与市民日常生活和城市运营相关的所有核心场景。经过严格的数据清洗和人工二次验证，最终数据集包含81,820个有效样本，标注有600个不同的意图类别。数据集通过地理、时间和场景维度的分层抽样确保代表性，解决了短期数据集中意图表示不足的问题。

The Help dataset is constructed using stratified sampling and covers 13 cities throughout the entire year of 2024. The sample data encompasses the needs of individuals across various age groups and occupational backgrounds, including all core scenarios related to citizens' daily lives and urban operations. Following strict data cleaning and manual secondary verification, the final dataset contains 81,820 valid samples annotated with 600 distinct intent categories. The dataset ensures representativeness via stratified sampling across geographic, temporal and scenario dimensions, addressing the problem of insufficient intent representation in short-term datasets.

创建时间：

2025-10-21

原始信息汇总

Help 数据集概述

数据集基本信息

数据规模：81,820个有效样本
意图类别：600个不同的意图类别
时间范围：2024年全年
地理范围：覆盖13个城市

数据收集方法

采用分层抽样方法构建数据集
涵盖不同年龄组和职业背景的个体需求
包含公民日常生活和城市运营的所有核心场景

数据预处理流程

第一阶段：自动清洗

使用基于规则和统计的混合方法处理异常
通过四分位距方法和领域特定规则移除2,137个异常样本
处理缺失字段：分类变量使用众数填补，排除892条关键信息缺失记录
移除1,563个无效样本，包括：
- 文本嵌入余弦相似度大于0.95的重复样本
- 垃圾内容
- 非服务相关对话内容
- 不完整句子

第二阶段：人工验证

5名具有两年以上公民服务经验的标注员参与
每个样本由两名标注员独立标注
验证内容：
- 查询语义有效性
- 意图标签准确性
- 上下文完整性
标注分歧由具有五年经验的高级标注员组织小组讨论解决

数据集特点

地理代表性

覆盖13个城市，避免单一城市环境过度代表
确保反映各地区公民服务需求的多样性

时间代表性

覆盖2024年全年数据
包含法定节假日（春节、国庆节等）
涵盖季节转换期和城市服务需求高峰期（夏季防洪、冬季供暖）

数据获取

附件包含示例数据子集。如需完整数据集或更大规模数据，请发送邮件至guoxin.hello@gmail.com。

搜集汇总

数据集介绍

构建方式

在智慧城市与公共服务研究领域，Help数据集采用分层抽样策略构建而成，覆盖2024年全年13个城市的市民服务需求。通过兼顾不同年龄层与职业背景的群体特征，该数据集系统收录了日常生活与城市运营核心场景的交互样本。构建过程中运用四分位距法与领域规则进行异常值检测，对缺失字段采用众数填补并结合人工复核，最终从原始86,627条样本中筛选出81,820条有效数据，形成涵盖600类意图的标注体系。

特点

该数据集显著特征体现在三维度的代表性保障：地理维度覆盖13个差异化城市环境，避免单一区域主导样本分布；时间维度贯穿全年周期，囊括法定节假日、季节更替与公共服务高峰时段；场景维度完整覆盖市民生活与城市管理核心领域。通过分层抽样与双重验证机制，数据集既保持了用户需求的异质性表达，又实现了意图类别的细粒度覆盖，为意图识别模型提供具有时空泛化能力的训练基础。

使用方法

研究者可通过邮件申请获取完整数据集，附件中提供的示例子集可供初步分析。该数据集适用于公共服务场景的意图分类与语义理解研究，600类意图标签采用双层标注体系组织，支持多标签分类任务。建议在使用时注意时序特征与地域属性的交叉验证，基于统计抽样权重设计评估指标，以充分发挥其跨场景泛化价值的潜力。

背景与挑战

背景概述

在自然语言处理领域，意图识别作为人机交互系统的核心技术，其性能高度依赖标注数据的质量与覆盖范围。Help数据集由研究团队于2024年构建，采用分层抽样策略覆盖13个城市全年数据，涵盖不同年龄层与职业背景的用户需求，最终形成包含81,820个样本、600类意图的标注体系。该数据集通过时空维度的系统采样，有效解决了传统意图识别数据中存在的场景单一性与时间局限性问题，为智慧城市服务场景下的语义理解研究提供了重要基准。

当前挑战

在意图识别领域，模型需应对用户表达的多义性、地域文化差异及长尾意图识别等核心难题。Help数据集构建过程中面临双重挑战：其一是数据质量控制，需通过混合异常检测方法处理2,137个异常样本，并结合人工二次验证解决标注歧义；其二是采样代表性保障，需通过全年多城市分层采样平衡时空分布，同时消除因文本相似度高于0.95导致的重复样本，确保600类意图的细粒度覆盖与语义完整性。

常用场景

经典使用场景

在自然语言处理领域，Help数据集作为大规模意图识别任务的基准数据集，其经典应用场景聚焦于智能客服系统的语义理解模块。通过覆盖全年周期与多地域的市民服务需求，该数据集能够有效训练深度学习模型识别600种精细意图类别，包括政务咨询、紧急求助、生活服务等核心领域，为对话系统提供精准的语义解析能力。

衍生相关工作

该数据集催生了系列重要研究成果，包括基于时空特征的意图演化分析框架、面向长尾意图的少样本学习算法，以及融合领域知识的预训练语言模型。相关论文在ACL、EMNLP等顶级会议形成专题研讨，其中基于Help数据集构建的多模态意图理解系统荣获2024年智慧城市创新奖，持续推动语义技术在实际场景的落地应用。

数据集最近研究