TigreGotico/EAT
收藏Hugging Face2026-04-27 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/TigreGotico/EAT
下载链接
链接失效反馈官方服务:
资源简介:
EAT(预期答案类型)数据集是一个高质量的问题分类数据集,基于TREC问题分类法,并增加了现代类别和严格的预期答案类型(EAT)验证。该数据集旨在训练和评估NLP模型,根据问题的预期答案的语义类别而非表面关键词进行分类。与原始TREC数据集不同,此版本包括:1. **BOOL:yesno**类别用于极性问题的分类;2. 每个样本的**已验证答案列**以确保标签准确性;3. **结构多样性**(直接、情态、命令式和上下文表达);4. **长度分层**(短、中、长和超长样本的平衡分布)。数据集通过大型语言模型(LLM)在人类数据工程师的严格监督下生成,并采用“生成-验证-清理”循环确保标签准确性。数据集以TSV格式提供,包含标签、问题、答案和语言代码等列。分类分类法包括主要标签(如ABBR、BOOL、DESC等)和层次化二级标签。生成过程中遵循六项基本原则,确保样本的多样性和质量。
The **EAT (Expected Answer Type)** dataset is designed to train and evaluate NLP models in the task of classifying questions not by their surface keywords, but by the semantic category of their expected answer. Unlike original TREC datasets, this version includes: 1. **BOOL:yesno** category for polar questions; 2. **Verified Answer Column** for every sample to ensure grounding and label accuracy; 3. **Structural Diversity** (Direct, Modal, Imperative, and Contextual phrasings); 4. **Length Stratification** (Balanced distribution of Short, Medium, Long, and Very Long samples). The dataset is synthetically generated using Large Language Models (LLM) under the strict supervision of a human data engineer, with an iterative "Generate-Validate-Clean" loop to ensure label accuracy. It is provided in TSV format with columns for label, question, answer, and language code. The classification taxonomy includes main labels (e.g., ABBR, BOOL, DESC) and hierarchical secondary labels. Generation follows six fundamental mandates to ensure diversity and quality.
提供机构:
TigreGotico
搜集汇总
数据集介绍

构建方式
EAT(Expected Answer Type)数据集基于TREC问题分类体系,通过大语言模型(LLM)结合严格的人工监督流程合成生成。生成过程采用‘生成-验证-清洗’迭代循环,确保每条样本的预期答案与标签严格匹配。数据构建遵循六项核心准则:以答案类型为分类锚点、采用直陈、祈使和情态等多种句式结构、实施长短句分层(短/中/长/极长按10:20:10:5比例分布)、引入具体真实实体、恪守语法规范,并包含用于边界测试的‘硬负样本’。此外,通过预批次前缀分析工具动态检查现有样本,禁止过度使用的问句前缀(如‘what language is spoken’)和内容词(如‘temperature’),并对长度标准差低于20的标签主动要求长短句混合,以杜绝模型依赖表面模式。
特点
该数据集的核心特点在于其层次化分类体系与严格语义验证的融合。标签系统包含ABBR、BOOL、DESC、ENTY等7个主类别及59个细粒度子标签(如NUM:dist、HUM:ind),每个样本均附带已验证的答案列以增强标签可靠性。数据集显著优化了原始TREC的不足:新增BOOL:yesno类别处理是非疑问句,并通过前缀约束与词汇多样性控制确保分类任务需基于语义类型而非表层关键词。结构多样性覆盖直接提问、祈使句和上下文嵌入句式,长度分层设计防止模型利用句子长度作为分类信号,从而提升模型的泛化能力。
使用方法
该数据集以TSV格式提供,包含label(层次化TREC标签)、question(自然语言问题/命令)、answer(用于验证的示例答案)和lang(语言代码)四列,适用于文本分类任务中的问题意图识别与答案类型预测。用户可直接加载数据训练分类模型,或作为语义理解任务的评测基准。建议在微调时利用answer列进行标签验证,并关注层次标签的层级关系以优化分类粒度。数据集持续扩充中,目标为每个标签达到750条样本,适合需要细粒度问题分类且强调语义鲁棒性的自然语言处理研究场景。
背景与挑战
背景概述
EAT(Expected Answer Type)数据集是由研究人员TigreGotico于近期创建的一项高质量问句分类资源,旨在基于TREC问题分类法,通过预期答案类型(EAT)的语义范畴来对问句进行归类,而非依赖其表面关键词。该数据集由大语言模型在人类数据工程师的严格监督下合成生成,采用迭代的“生成-验证-清洗”循环确保标签准确性。核心研究问题在于提升模型对问句深层语义的理解能力,突破传统分类方法仅捕捉表层模式的局限。EAT数据集引入BOOL:yesno类别与答案验证列,并强化结构多样性与长度分层,对信息检索、问答系统及语义理解领域具有显著推动力。
当前挑战
EAT数据集所解决的领域挑战在于问句分类中常见的“前缀-标签泄漏”问题,即模型易依赖特定前缀(如“what language is spoken”)而非基于答案类型进行判断,导致泛化能力薄弱。为此,数据集通过预批次前缀分析识别并禁用高频前缀,强制模型学习语义关联。构建过程中面临的挑战包括:确保合成数据中答案与标签严格匹配,通过验证列实现可追溯性;人工监督下维持结构多样性,覆盖直接、祈使、情态及语境化表述;以及控制长度分布,避免模型利用字符长度作为捷径。此外,边界测试的引入要求模型区分相似标签(如LOC:mount与NUM:dist),进一步提升了数据集的判别难度与实用性。
常用场景
经典使用场景
在自然语言处理领域,EAT数据集最经典的使用场景是面向预期答案类型(Expected Answer Type)的问题分类任务。该任务要求模型超越问题的表面词汇特征,深入理解问题所寻求答案的语义类别。例如,面对问句“How high is Everest?”,模型需识别其预期答案为距离测量值,而非单纯的地名或实体。EAT数据集基于TREC问题分类体系,并扩展了布尔型(BOOL:yesno)等现代类别,为细粒度的语义分类提供了高质量的训练与评估基准。
实际应用
在实际应用层面,EAT数据集可广泛赋能智能问答系统、搜索引擎意图识别和对话机器人的语义理解模块。例如,在搜索引擎中,准确识别用户问题背后的预期答案类型(如数值、地点、人物描述)有助于精确定位最相关的检索结果。在客服机器人场景中,判断“Can you tell me if...?”是否为布尔型提问,能够优化应答策略,避免无效回应。EAT数据集的结构化多样性与长度分层特性,使其适用于多轮对话、复杂查询等实际应用环境。
衍生相关工作
EAT数据集衍生了多项具有影响力的研究工作,尤其在问题分类的语义表征和提示工程优化方面。基于其前缀-标签泄露检测机制,研究者开发了自动化前缀阻断算法以减少特征捷径。此外,EAT启发了面向预期答案类型的预训练语言模型微调策略,并催生了跨领域问题分类的元学习框架。其六项生成原则(如实体粒度、边界测试)被后续合成数据工作广泛借鉴,推动了语义分类数据生成的质量标准与评估体系。
以上内容由遇见数据集搜集并总结生成



