EAT

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/TigreGotico/EAT

下载链接

链接失效反馈

官方服务：

资源简介：

EAT（Expected Answer Type）数据集是一个基于TREC问题分类法的高质量数据集，旨在通过问题的预期答案类型而非表面关键词来训练和评估NLP模型。该数据集对原始TREC数据集进行了多项增强，包括新增BOOL:yesno类别、为每个样本添加验证答案列、结构多样性（直接、情态、命令式和上下文表达）以及长度分层（短、中、长和超长样本的平衡分布）。数据集采用TSV格式，包含label（层次化TREC标签）、question（自然语言问题或命令）、answer（用于验证标签的事实性代表答案）和lang（语言代码，当前为en）四个字段。数据集通过大型语言模型（LLM）在严格的人工监督下合成生成，并遵循六项基本生成准则，确保答案类型与标签严格匹配。分类法包括ABBR、BOOL、DESC、ENTY、HUM、LOC和NUM等主要标签，以及多个次级标签。数据集目前由TigreGotico维护，目标为每个标签生成500个样本。

The EAT (Expected Answer Type) dataset is a high-quality dataset based on the TREC question classification method, designed to train and evaluate NLP models through the expected answer type of questions rather than surface keywords. The dataset enhances the original TREC dataset with several improvements, including the addition of a BOOL:yesno category, a validation answer column for each sample, structural diversity (direct, modal, imperative, and contextual expressions), and length stratification (balanced distribution of short, medium, long, and extra-long samples). The dataset is in TSV format and includes four fields: label (hierarchical TREC labels), question (natural language questions or commands), answer (factual representative answers for label validation), and lang (language code, currently en). The dataset is synthetically generated by large language models (LLMs) under strict human supervision, adhering to six fundamental generation criteria to ensure strict matching between answer types and labels. The taxonomy includes main labels such as ABBR, BOOL, DESC, ENTY, HUM, LOC, and NUM, along with multiple secondary labels. The dataset is currently maintained by TigreGotico, with a goal of generating 500 samples per label.

创建时间：

2026-04-24

原始信息汇总

数据集概述：EAT (Expected Answer Type Dataset)

数据集地址： https://huggingface.co/datasets/TigreGotico/EAT

1. 核心任务与目标

任务类型： 文本分类（text-classification），具体为问题分类（Question Classification）。
目标： 根据问题的期望答案类型（Expected Answer Type, EAT） 语义类别进行分类，而非基于表面关键词。
基础： 基于 TREC 问题分类体系（TREC Question Taxonomy），并进行了增强。

2. 数据集规模与格式

规模： 样本数量在 1K 到 10K 之间（1K<n<10K）。
格式： TSV（制表符分隔值） 格式。
字段说明：

字段名	描述
`label`	层次化 TREC 标签（如 `NUM:dist`、`HUM:ind`）。
`question`	自然语言问题或指令。
`answer`	用于验证标签的事实性代表答案。
`lang`	语言代码（当前为 `en`，即英语）。

3. 主要特点（相较于原始 TREC 数据集）

新增 BOOL:yesno 类别： 用于处理极性（yes/no）问题。
验证答案列（Verified Answer Column）： 每条样本都包含一个答案，用于确保标签的准确性和接地性。
结构多样性（Structural Diversity）： 包含直接、情态、祈使和上下文等多种句式。
长度分层（Length Stratification）： 短、中、长、超长样本的比例均衡（10/20/10/5）。

4. 分类体系（分类标签结构）

主标签（Main Labels）：
- ABBR（缩略词）
- BOOL（布尔/是-否）
- DESC（描述）
- ENTY（实体）
- HUM（人类）
- LOC（位置）
- NUM（数字）
层次化副标签（Hierarchical Secondary Labels）：
- ABBR: abb, exp
- BOOL: yesno
- DESC: def, desc, manner, reason
- ENTY: animal, body, color, cremat, currency, dismed, event, food, instru, lang, letter, other, plant, product, religion, sport, substance, symbol, techmeth, termeq, veh, word
- HUM: desc, gr, ind, title
- LOC: city, country, landmass, mount, other, state, water
- NUM: code, count, date, dist, money, ord, other, perc, period, speed, temp, volsize, weight

5. 数据生成与质量控制

生成方式： 使用 大型语言模型（LLM） 合成生成，并由人类数据工程师严格监督。
生成流程： 采用 “生成-验证-清洗” 迭代循环，确保期望答案与所分配的标签严格匹配。
生成准则（Generation Guidelines）： 包括 EAT锚定、结构多样性、长度分层、实体粒度、语法严谨性和边界测试六项基本原则。

6. 许可证与状态

许可证： MIT（mit）。
维护者： TigreGotico
现状： 进行中（In Progress），目标为每个标签 500 个样本。

搜集汇总

数据集介绍

构建方式

EAT数据集基于TREC问题分类体系，通过大型语言模型（LLM）在人类数据工程师的严格监督下合成生成。生成过程采用迭代的“生成-验证-清洗”循环，确保每条数据的预期答案类型与分配标签严格匹配。数据集包含七个主要类别（如BOOL、NUM、HUM）及细分的层次化标签，并遵循六大生成准则：以答案类型为核心锚定分类、要求句法多样性（直接、祈使、情态等句式）、按长度分层均衡（短/中/长/极长比例为10:20:10:5）、采用具体实体、保证语法严谨，并加入边界测试样本以增强模型区分能力。

特点

该数据集在传统TREC基础上进行了三项关键升级：新增BOOL:yesno类别以覆盖是非问句；为每条样本提供验证答案列以保障标签可溯性；通过句法多样性（直接、情态、祈使、上下文四种句式）和长度分层策略实现结构丰富性。数据以TSV格式存储，包含层次化标签、问题文本、验证答案及语言代码字段。其独特之处在于严格依据预期答案类型而非表面关键词进行分类，有效提升了模型在语义层面的意图识别鲁棒性。

使用方法

数据集适用于文本分类任务，特别是问题分类和意图检测场景。用户可直接加载TSV文件，利用label列作为层级分类目标（如主标签ABBR或细粒度标签NUM:dist），question列作为输入。建议在训练时优先关注层次化标签的预测能力，同时可利用answer列作为弱监督信号或进行标签验证。当前数据集持续扩展中（目标每标签500条），开发者可关注更新并基于其六项生成准则自行扩展样本，以适配特定领域的问答系统训练需求。

背景与挑战

背景概述

EAT（Expected Answer Type）数据集由研究者TigreGotico创建，旨在推动问题分类任务的发展。该数据集基于TREC问题分类体系，通过引入现代类别（如BOOL:yesno）和预期答案类型验证机制，解决了传统数据集仅依赖表面关键词分类的局限性。EAT数据集的诞生背景源于自然语言处理领域对语义理解深层次的需求，其核心研究问题在于如何通过答案语义类别而非问题句式来精准分类。自发布以来，该数据集为问答系统、意图识别等下游任务提供了高质量的训练与评估基准，尤其在区分细粒度问题类型（如LOC:mount与NUM:dist）方面展现了重要价值。

当前挑战

EAT数据集所应对的核心领域挑战在于，传统问题分类方法难以捕捉问题背后的语义本质，导致模型在区分相似标签（如地点与距离度量）时表现不佳。此外，构建过程中面临多重挑战：一是如何确保生成样本的预期答案类型与标签严格对齐，需通过“生成-验证-清洗”循环消除模糊性；二是实现结构多样性（直接、祈使、情态等句式）与长度均衡分布（短、中、长、超长比例的严格配比）的同时，保持数据质量与真实性；三是引入特定实体和对抗样本（如边缘测试）以增强模型鲁棒性，但需避免数据偏差或人工伪造痕迹过重影响泛化能力。

常用场景

经典使用场景

在自然语言处理研究领域，EAT数据集以其对预期答案类型（Expected Answer Type, EAT）的精准标注而独树一帜。其最经典的用途在于训练文本分类模型，使其能够依据问题所期待的答案语义类别而非表面关键词进行归类。相较于传统的TREC问题分类数据集，EAT引入了布尔型是非问题类别、严格的答案验证列，以及直述、情态、祈使和语境四种句式结构多样性。这使其成为研究深层语义理解、意图识别与细粒度问题分类的标杆资源，在自然语言理解与对话系统的基础研究中扮演着不可或缺的角色。

实际应用

在实际应用层面，EAT数据集为智能搜索引擎和虚拟助手的核心模块——意图检测与问题解析——提供了坚实的训练素材。模型可借助该数据集学习区分请求查询信息（如“如何使用递归算法？”）与请求二元确认（如“水是透明的吗？”）等不同交互意图，从而提升人机对话的流畅度与准确性。此外，在电商客服机器人、智能教育问答平台等场景中，EAT数据能够帮助系统迅速锁定用户问题的本质需求并匹配预期答案类型，减少无效检索，显著提升用户问答体验与服务响应效率。

衍生相关工作

作为TREC分类体系的高级演进版本，EAT数据集催生了多个研究方向与衍生工作。研究者在它的启发下开发了面向多任务联合学习的混合分类架构，将答案类型预测与问题理解紧密结合。同时，该数据集为合成数据的生成-验证-清洗流程树立了高质量参考范例，推动了基于大语言模型的自主数据建构方法论。此外，围绕EAT的标签层次关系，涌现出适应长尾标签的分类损失函数改进工作，以及将层级语义编码融入Transformer预训练模型的新思路，进一步拓展了文本分类与语义理解在工业场景中的落地路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集