Rationale_MCTS
收藏Hugging Face2024-10-14 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/jiazhengli/Rationale_MCTS
下载链接
链接失效反馈官方服务:
资源简介:
Rationale MCTS数据集包含由大型语言模型(LLMs)生成的中介评估理由,这些理由可能包含错误或近似推理,适用于逐步解释学生答案的评估,特别是在科学和生物学领域。该数据集针对Hewlett Foundation的短答案评分竞赛中的问题。数据集分为四个子集(ASAP_1, ASAP_2, ASAP_5, 和 ASAP_6),并包含训练、验证和测试分割。每个子集包含Id、EssaySet、Mark、Response、key_element_tree、assessment_tree和pred_labels等列。该数据集旨在用于教育技术领域中可解释AI的研究,并采用Creative Commons Attribution-NonCommercial 4.0国际公共许可证。
创建时间:
2024-10-14
原始信息汇总
Rationale MCTS Dataset
概述
- 任务类别: 问答、文本分类、文本生成
- 语言: 英语
- 数据集名称: Rationale_MCTS
- 数据量: 10K<n<100K
详细信息
- 创建者: Jiazheng Li
- 许可证: Creative Commons Attribution-NonCommercial 4.0 International Public License
- 用途: 用于训练大型语言模型生成可解释的学生答案评估,适用于教育技术领域中的可解释AI研究。
数据集结构
- 子集: ASAP_1, ASAP_2, ASAP_5, ASAP_6
- train: 用于构建合成响应级评估思维树的中间评估理由。
- dev 和 test: 包含用于验证和测试的原始评估思维树。
数据文件
- ASAP_1
- train:
asap_1/train_0421-0421.json - dev:
asap_1/validation_0418-2209.json - test:
asap_1/test_0424-0114.json
- train:
- ASAP_2
- train:
asap_2/train_0424-2236.json - dev:
asap_2/validation_0419-0148.json - test:
asap_2/test_0427-0131.json
- train:
- ASAP_5
- train:
asap_5/train_0428-0113.json - dev:
asap_5/validation_0423-0518.json - test:
asap_5/test_0423-2352.json
- train:
- ASAP_6
- train:
asap_6/train_0507-2344.json - dev:
asap_6/validation_0506-0546.json - test:
asap_6/test_0506-1941.json
- train:
列描述
Id: 原始ASAP-AES数据集的标识符。EssaySet: 来自ASAP-AES的对应作文集ID。Mark: 人工评估的分数(原始数据集中的Score1)。Response: 学生答案的文本。key_element_tree: 关键元素级评估思维树。assessment_tree: 综合评估思维树,包括关键元素和评分标准级别。pred_labels: 通过方法(如sum by llm和sum by python)计算的预测最高分数。
致谢
- 感谢The Hewlett Foundation提供的ASAP-AES数据集元素。
限制
- 生成的理由通过LLM提示生成,包含噪声,不适合直接用于高风险评估,需进一步验证。
引用
bibtex @misc{li2024calibratingllmspreferenceoptimization, title={Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring}, author={Jiazheng Li and Hainiu Xu and Zhaoyue Sun and Yuxiang Zhou and David West and Cesare Aloisi and Yulan He}, year={2024}, eprint={2406.19949}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.19949}, }
搜集汇总
数据集介绍

构建方式
Rationale_MCTS数据集通过大型语言模型(LLMs)生成中间评估推理,这些推理被称为“噪声”推理,可能包含错误或近似推理,专门用于科学和生物学领域中学生答案的逐步可解释评估。数据集基于The Hewlett Foundation的Short Answer Scoring竞赛中的问题构建,并通过多个子集(ASAP_1、ASAP_2、ASAP_5、ASAP_6)进行组织,每个子集包含训练、验证和测试数据。数据文件以日期和时间命名,确保数据的可追溯性。
特点
Rationale_MCTS数据集的特点在于其包含了由LLMs生成的评估推理树,这些推理树分为关键元素级和综合评估级,能够提供多层次的分析视角。数据集中的每个样本都包含学生答案的文本、人类评分、预测标签以及评估推理树,使得研究者能够深入理解LLMs在评估任务中的推理过程。此外,数据集的噪声特性使其成为研究可解释AI的理想资源,尤其是在教育技术领域。
使用方法
Rationale_MCTS数据集主要用于训练LLMs生成可解释的学生答案评估,适用于教育技术领域的研究。研究者可以通过解析数据集中的评估推理树,分析LLMs在评估任务中的表现,并进一步优化模型。数据集中的训练、验证和测试子集分别用于模型训练、验证和测试,确保模型的泛化能力。此外,数据集的噪声特性要求在使用时进行进一步的验证,以确保其在高风险评估中的可靠性。
背景与挑战
背景概述
Rationale_MCTS数据集由Jiazheng Li等人于2024年创建,旨在通过大语言模型(LLMs)生成的中介评估理性,支持科学和生物学领域学生答案的逐步可解释性评估。该数据集基于The Hewlett Foundation的Short Answer Scoring竞赛中的问题,涵盖了ASAP_1、ASAP_2、ASAP_5和ASAP_6四个子集。其核心研究问题在于如何利用LLMs生成带有噪声的理性,以构建可解释的评估思维树,从而推动教育技术领域的可解释人工智能研究。该数据集为LLMs在生成可解释性评估方面的训练提供了重要资源,并在EMNLP 2024 Findings中发表了相关论文。
当前挑战
Rationale_MCTS数据集在解决科学问题评估的挑战中,面临的主要问题是如何确保生成的中介理性在包含噪声的情况下仍能提供准确的评估。由于这些理性可能包含错误或近似推理,直接应用于高风险的评估任务存在风险。此外,在数据构建过程中,如何通过LLMs生成具有一致性和逻辑性的思维树,并确保其与人类评估结果的一致性,也是一大挑战。数据集的构建依赖于复杂的提示工程和优化技术,以确保生成的理性能够有效支持可解释性评估任务。
常用场景
经典使用场景
Rationale_MCTS数据集在自然语言处理领域中被广泛应用于训练大型语言模型(LLMs),以生成对学生科学和生物学答案的可解释评估。该数据集通过构建中间评估理由树,帮助模型逐步解释评估过程,特别适用于教育技术中的自动评分系统。
实际应用
在实际应用中,Rationale_MCTS数据集被用于开发智能教育工具,如自动评分系统和个性化学习平台。这些工具能够根据学生的回答生成详细的评估反馈,帮助教师和学生更好地理解学习过程中的强项和弱项,从而提升教学效果。
衍生相关工作
基于Rationale_MCTS数据集,研究人员开发了多种改进LLMs推理能力的方法。例如,通过偏好优化技术校准LLMs的推理树,生成更准确的评估理由。这些工作不仅推动了可解释AI在教育领域的发展,还为其他领域的自动推理系统提供了新的思路。
以上内容由遇见数据集搜集并总结生成



