FEAT
收藏FEAT: 英语AI辅导偏好反馈数据集
数据集概述
- 名称: FEAT (A Preference Feedback Dataset through a Cost-Effective Auto-Generation and Labeling Framework for English AI Tutoring)
- 类型: 教师反馈偏好数据集
- 用途: 支持智能辅导系统中的学习排序、偏好学习和反馈生成研究
关键特性
- 数据结构
- 包含成对偏好三元组
(prompt, chosen, rejected),适用于RLHF风格微调
- 包含成对偏好三元组
- 双变体设计
- base: 在每个对话上下文中构建的规范偏好集
- mixed: 跨上下文配对的更困难集合
- 标准感知分割
- 提供2标准(Correct & Revealing)和5标准(Correct, Revealing, Guidance, Diagnostic, Encouragement)版本
- 数据格式
- 简单JSON格式
- 清晰的训练/测试分割
数据集结构
text
datasets/
├── DIRECT-G/
│ ├── base/
│ │ ├── train.criteria_2.json
│ │ ├── train.criteria_5.json
│ │ ├── test.criteria_2.json
│ │ └── test.criteria_5.json
│ └── mixed/
│ ├── train.criteria_2.json
│ ├── train.criteria_5.json
│ ├── test.criteria_2.json
│ └── test.criteria_5.json
└── DIRECT-M/ ← 见: https://github.com/DIRECTDataset/DIRECTManual
文件命名约定
<split>.criteria_<k>.json
- split:
train或test - k:
2或5(反馈标准数量)
数据集规模
| 数据集 | 变体 | 训练对 | 测试对 |
|---|---|---|---|
| DIRECT‑G | base | 3,996 | 444 |
| DIRECT‑G | mixed | 7,992 | 888 |
许可证
- 许可证类型: Creative Commons Attribution 4.0 International (CC BY 4.0)
引用
bibtex @inproceedings{seo2025feat, title = {FEAT: A Preference Feedback Dataset through a Cost‑Effective Auto‑Generation and Labeling Framework for English AI Tutoring}, author = {Seo, Hyein and Hwang, Taewook and Lee, Yohan and Jung, Sangkeun}, year = {2025}, booktitle = {Proceedings of the ACL} }




