EvalYaks

Name: EvalYaks
Creator: 印度科学研究所，班加罗尔，印度；Talking Yak公司，威斯康星，美国；Talking Yak英语学习私人有限公司，班加罗尔，印度
Published: 2024-08-22 16:57:31
License: 暂无描述

arXiv2024-08-22 更新2024-08-28 收录

下载链接：

https://github.com/Talking-Yak/EvalYaks

下载链接

链接失效反馈

官方服务：

资源简介：

EvalYaks数据集是由印度科学研究所和Talking Yak公司合作创建的，旨在用于自动化评估CEFR B2英语口语测试的转录文本。该数据集包含模拟的候选对话记录，这些记录通过GPT-4 Turbo模型生成，并由专家进行了验证和评分。数据集主要用于训练和调整大型语言模型，以实现对英语口语能力的自动化评估，特别是在全球和印度特定环境中的应用。

The EvalYaks dataset was co-created by the Indian Institute of Science and Talking Yak, Inc. It is designed for automated evaluation of transcribed spoken English responses in CEFR B2 level speaking tests. The dataset contains simulated candidate dialogue transcripts generated by the GPT-4 Turbo model, which were verified and scored by domain experts. It is primarily utilized for training and fine-tuning large language models to enable automated assessment of English speaking proficiency, with a particular focus on applications in global and India-specific contexts.

提供机构：

印度科学研究所，班加罗尔，印度；Talking Yak公司，威斯康星，美国；Talking Yak英语学习私人有限公司，班加罗尔，印度

创建时间：

2024-08-22

原始信息汇总

EvalYaks 数据集概述

数据集描述

EvalYaks 是一个用于指导调优的数据集和 LoRA 微调模型，旨在自动化评估 CEFR B2 英语口语评估转录的评分。该数据集旨在解决依赖人类专家在电子学习环境中评估 CEFR 口语测试的扩展性挑战。

数据集目标

自动化评估 CEFR B2 英语口语测试。
创建一个新的专家验证的、CEFR 对齐的合成对话数据集，包含不同评估分数的转录。
开发新的指导调优数据集，来源于英语词汇概况（至 CEFR B2 级别）和 CEFR-SP WikiAuto 数据集。

数据集内容

数据集包含以下部分：

InstructionDatasets/: 用于指导调优的数据集。
- Cambridge_VocabProfile.csv: 剑桥词汇概况。
- CEFR_WikiAuto.csv: CEFR WikiAuto 数据集。
- Part1_Introduction.csv: CEFR B2 英语口语评估的第一部分。
- Part2_LongTurn.csv: CEFR B2 英语口语评估的第二部分。
- Part3_Discussion.csv: CEFR B2 英语口语评估的第三部分。
- Part4_ExtendedDiscussion.csv: CEFR B2 英语口语评估的第四部分。

数据集性能

EvalYaks 模型在评估 CEFR B2 英语口语测试中达到了平均可接受准确率 96%，水平变化度为 0.35 级，表现比其他模型高出 3 倍。

引用

如果您发现该数据集和研究有益，请引用以下内容： bibtex @misc{scaria2024evalyaks, title={emph{EvalYaks}: Instruction Tuning Datasets and LoRA Fine-tuned Models for Automated Scoring of CEFR B2 Speaking Assessment Transcripts}, author={Nicy Scaria and Silvester John Joseph Kennedy and Thomas Latinovich and Deepak Subramani}, year={2024}, eprint={to be added}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={to be added}, }

搜集汇总

数据集介绍

构建方式

EvalYaks数据集的构建始于模拟CEFR B2英语口语评估的对话记录生成，这些记录通过GPT-4 Turbo模型创建，并针对印度和全球环境进行了定制。数据集包含了针对评估标准的评分，并由专家进行验证和校准。随后，数据集被用于评估现有的大型语言模型（LLMs）在直接评估候选者表现方面的能力，并揭示了指令微调的必要性。最后，使用这些数据集，通过低秩适应（LoRA）参数高效指令微调方法，训练了Mistral Instruct 7B v0.2，从而开发了EvalYaks系列模型。

特点

EvalYaks数据集的特点在于其高度定制化的对话记录，这些记录模仿了真实评估环境中的交互，并针对CEFR B2评估标准进行了评分。数据集还包括了从英语词汇概览（CEFR B2级别）和CEFR-SP WikiAuto数据集中提取的指令微调数据集。EvalYaks模型在评估和评分CEFR B2英语口语评估方面表现出色，平均可接受准确率达到96%，变化度为0.35级，并且比下一个最佳模型的性能高出三倍。

使用方法

使用EvalYaks数据集时，首先需要使用GPT-4 Turbo模型生成模拟的对话记录，并对其进行专家验证和评分。然后，使用这些记录和额外的指令数据集，通过LoRA方法对Mistral Instruct 7B v0.2模型进行指令微调，以开发EvalYaks模型。这些模型可以自动评估CEFR B2口语评估的各个部分，包括语法和词汇、话语管理和互动交流。用户可以提供包含对话记录和评估标准的提示，模型将生成相应的评分。

背景与挑战

背景概述

在电子学习环境中，依赖人工专家评估CEFR口语测试存在可扩展性挑战，因为它限制了评估的速度和范围。EvalYaks数据集的创建旨在自动化评估电子学习环境中的CEFR B2英语口语评估，从对话记录中实现。主要研究人员包括Nicy Scaria、Silvester John Joseph Kennedy和Thomas Latinovich等，他们来自印度IISc计算与数据科学系和美国的Talking Yak, Inc.及Talking Yak English Learning Private Limited。核心研究问题是如何利用大型语言模型（LLMs）自动评分CEFR B2口语考试中的候选人表现。该数据集对相关领域的影响体现在提供了一个自动评估和评分CEFR B2英语口语评估的解决方案，为可扩展的语言能力评估提供了有希望的解决方案。

当前挑战

EvalYaks数据集面临的挑战包括：1) 解决领域问题，即如何利用LLMs自动评分CEFR B2口语考试中的候选人表现；2) 构建过程中所遇到的挑战，如数据集的生成和验证、模型的指令微调、性能评估指标的确定等。为了解决这些挑战，研究人员使用了GPT-4生成模拟的候选人对话记录，并利用专家反馈进行验证和校准。此外，他们还使用了低秩适应（LoRA）方法对Mistral Instruct 7B v0.2模型进行参数高效的指令微调，并开发了一系列名为EvalYaks的模型，以评估CEFR B2口语考试的不同部分。这些模型在评估和评分任务中表现出色，平均可接受准确率达到96%，证明了LLMs在自动评估和评分CEFR B2英语口语评估方面的有效性。

常用场景

经典使用场景

EvalYaks数据集主要应用于自动评估CEFR B2英语口语测试中的对话文本。该数据集通过提供经过专家验证的、与CEFR对齐的合成对话数据集，以及从英语词汇分布图（CEFR B2级别）和CEFR-SP WikiAuto数据集中开发的新指令调整数据集，实现了对候选人表现的评价。这些数据集被用于训练Mistral Instruct 7B v0.2模型，以开发出名为EvalYaks的模型系列。这些模型能够评估CEFR B2口语考试的四部分内容，识别词汇的CEFR级别并生成特定级别的词汇，以及检测文本的CEFR级别并生成特定级别的文本。

解决学术问题

EvalYaks数据集解决了在e-learning环境中依赖人工专家评估CEFR口语测试的挑战，因为这种方式限制了评估的快速性和广泛性。通过使用高质量的CEFR对齐评估数据，该数据集能够有效地自动评估和评分CEFR B2英语口语测试，提供了一种可扩展的、自动化的语言能力评估解决方案。

衍生相关工作

EvalYaks数据集衍生了多项相关研究，包括使用LoRA微调方法对大型语言模型进行指令调整，以及开发能够识别和生成特定CEFR级别词汇和文本的模型。这些研究为自动评估语言能力提供了新的思路和方法，有助于提高评估的准确性和可扩展性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集