five

FEAT

收藏
arXiv2025-06-27 更新2025-06-26 收录
下载链接:
https://github.com/hyenee/FEAT
下载链接
链接失效反馈
官方服务:
资源简介:
FEAT是一个用于英语教育辅导的反馈数据集生成框架,通过高效的大语言模型自动生成大规模教师反馈偏好数据集,包括三个互补数据集:DIRECT-Manual (DM)、DIRECT-Generated (DG)和DIRECT-Augmented (DA),旨在为构建人性化的辅导模型提供数据支持。

FEAT is a feedback dataset generation framework for English educational tutoring. It employs efficient large language models (LLMs) to automatically generate large-scale teacher feedback preference datasets, which consist of three complementary datasets: DIRECT-Manual (DM), DIRECT-Generated (DG), and DIRECT-Augmented (DA). The framework aims to provide data support for building humanized tutoring models.
提供机构:
韩国忠南国立大学、韩国电子和电信研究院、EurekaAI
创建时间:
2025-06-24
原始信息汇总

FEAT: 英语AI辅导偏好反馈数据集

数据集概述

  • 名称: FEAT (A Preference Feedback Dataset through a Cost-Effective Auto-Generation and Labeling Framework for English AI Tutoring)
  • 类型: 教师反馈偏好数据集
  • 用途: 支持智能辅导系统中的学习排序、偏好学习和反馈生成研究

关键特性

  1. 数据结构
    • 包含成对偏好三元组 (prompt, chosen, rejected),适用于RLHF风格微调
  2. 双变体设计
    • base: 在每个对话上下文中构建的规范偏好集
    • mixed: 跨上下文配对的更困难集合
  3. 标准感知分割
    • 提供2标准(Correct & Revealing)和5标准(Correct, Revealing, Guidance, Diagnostic, Encouragement)版本
  4. 数据格式
    • 简单JSON格式
    • 清晰的训练/测试分割

数据集结构

text datasets/ ├── DIRECT-G/
│   ├── base/ │   │   ├── train.criteria_2.json │   │   ├── train.criteria_5.json │   │   ├── test.criteria_2.json │   │   └── test.criteria_5.json │   └── mixed/ │   ├── train.criteria_2.json │   ├── train.criteria_5.json │   ├── test.criteria_2.json │   └── test.criteria_5.json └── DIRECT-M/ ← 见: https://github.com/DIRECTDataset/DIRECTManual

文件命名约定

<split>.criteria_<k>.json

  • split: traintest
  • k: 25 (反馈标准数量)

数据集规模

数据集 变体 训练对 测试对
DIRECT‑G base 3,996 444
DIRECT‑G mixed 7,992 888

许可证

  • 许可证类型: Creative Commons Attribution 4.0 International (CC BY 4.0)

引用

bibtex @inproceedings{seo2025feat, title = {FEAT: A Preference Feedback Dataset through a Cost‑Effective Auto‑Generation and Labeling Framework for English AI Tutoring}, author = {Seo, Hyein and Hwang, Taewook and Lee, Yohan and Jung, Sangkeun}, year = {2025}, booktitle = {Proceedings of the ACL} }

搜集汇总
数据集介绍
main_image_url
构建方式
FEAT数据集通过创新的成本效益框架构建,采用人机协同策略生成英语教学反馈数据。研究团队设计了三种互补的数据子集:DIRECT-Manual(DM)通过人类专家与大语言模型协作生成高质量标注数据;DIRECT-Generated(DG)完全由大语言模型自动生成标注;DIRECT-Augmented(DA)则在DG基础上融入少量DM数据以平衡质量与成本。数据生成过程严格遵循五项教育反馈标准(正确性、启发性、指导性、诊断性和激励性),并采用阅读理解任务转换的对话场景构建技术。
特点
该数据集最显著的特点是构建了多层次的质量-成本权衡体系:DM子集代表黄金标准但成本高昂,DG子集实现低成本规模化生产,DA子集则通过5-10%的人类标注数据混合达到超越纯人工标注的性能表现。数据集包含5,500组教师-学生对话场景,每个反馈实例均经过多维度质量评估,特别注重保持教育反馈的间接引导特性。实验表明,其混合标注策略使模型在RBO指标上达到0.8以上的排名相似度。
使用方法
FEAT数据集支持多种教育AI应用的开发:研究者可采用二元分类器、奖励模型、直接偏好优化等五种排名模型架构进行训练,输入格式包含对话历史、学生错误回答等上下文信息。使用建议包括:优先采用DA子集进行模型微调,利用LoRA等参数高效微调技术,以及结合多数投票的集成策略提升稳定性。对于资源受限场景,推荐仅使用DG子集配合两核心标准(正确性和启发性)仍能保持0.7以上的RBO性能。
背景与挑战
背景概述
FEAT数据集由Chungnam National University和Electronics and Telecommunications Research Institute的研究团队于2025年提出,旨在解决英语教育中高质量教师反馈数据获取困难的问题。该数据集通过结合人类专家与大语言模型(LLMs)的协作,构建了三个互补的子集:DIRECT-Manual(DM)、DIRECT-Generated(DG)和DIRECT-Augmented(DA)。FEAT的提出显著降低了人工标注成本,同时保持了反馈质量,为基于奖励或排序的学习提供了重要资源,推动了AI辅助英语教育的发展。
当前挑战
FEAT数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,如何生成既符合教育标准又能有效引导学生的高质量反馈是一大难题,尤其是平衡反馈的准确性和启发性。在构建过程中,数据集需要解决人工标注成本高、标注一致性难以保证的问题,同时还需确保LLM生成的反馈符合教育学的五大标准(正确性、启发性、指导性、诊断性和鼓励性)。此外,如何在小规模人工标注数据的基础上,通过混合标注策略提升模型性能,也是该数据集需要克服的关键技术挑战。
常用场景
经典使用场景
在英语教育领域,FEAT数据集通过其独特的自动生成和标注框架,为AI辅导系统提供了高质量的教师反馈数据。该数据集广泛应用于构建基于奖励或排名的学习模型,帮助研究人员优化AI辅导系统的反馈生成能力。通过结合人类标注和大语言模型生成的反馈,FEAT数据集为教育技术研究提供了丰富的数据支持。
解决学术问题
FEAT数据集解决了英语教育中高质量教师反馈数据稀缺的问题。传统方法依赖人工标注,成本高且难以扩展。该数据集通过自动生成和混合标注策略,显著降低了数据获取成本,同时保持了反馈质量。其创新性的数据构建方法为教育领域的大规模反馈生成研究提供了新思路,推动了AI辅导系统的发展。
衍生相关工作
基于FEAT数据集,研究者们开展了一系列延伸工作。其中包括改进反馈排名模型、探索多模态反馈生成,以及开发更高效的混合标注策略。这些工作进一步推动了教育AI领域的发展,衍生出多个创新性的反馈生成和评估框架,为后续研究奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作