BEA 2026 Shared Task Vocabulary Difficulty Prediction Dataset

github2026-01-28 更新2026-02-07 收录

下载链接：

https://github.com/britishcouncil/bea2026st

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为BEA 2026共享任务提供，包含训练、开发和测试数据集，以CSV文件形式提供，每个文件对应不同的L1（西班牙语、德语、普通话）。数据集包括项目ID、L1、英语目标词、目标词性等列。

This dataset is provided for the BEA 2026 Shared Task, and consists of training, development and test datasets. All datasets are distributed as CSV files, with each file corresponding to a distinct L1 (Spanish, German or Mandarin). The dataset includes columns such as Project ID, L1, English target word and target part-of-speech.

创建时间：

2026-01-24

原始信息汇总

BEA 2026 共享任务数据集：英语学习者词汇难度预测

数据集概述

该数据集用于BEA 2026共享任务，旨在预测英语学习者的词汇难度。数据集由英国理事会提供，包含训练集、开发集和测试集，覆盖三种母语背景的学习者。

数据内容与结构

数据文件

数据以CSV文件格式提供，按数据集类型和母语（L1）分类存放。

训练集：data/train/ 目录下，包含 es（西班牙语）、de（德语）、cn（中文）三个子目录。
开发集：data/dev/ 目录下，同样包含 es、de、cn 三个子目录。
文件命名：例如 kvl_shared_task_es_train.csv。

数据列说明

每个CSV文件包含以下数据列：

item_id：项目ID（1至6768）。不同L1文件中相同ID的项目是平行的（即对应同一个英语目标词）。
L1：提示语的母语（es 代表西班牙语，de 代表德语，cn 代表普通话）。
en_target_word：英语目标词。
en_target_pos：英语目标词的词性。
en_target_clue：英语目标词的部分拼写线索。
L1_source_word：对应的L1源词。
L1_context：L1语境提示。
GLMM_score：词汇测试项目的GLMM难度估计值（源自Schmitt等人（2024）的研究）。分数越低表示单词越难。这是需要预测的目标值。

任务与基线

任务目标

预测词汇测试项目的GLMM_score。

基线模型

提供了微调后的Transformer基线模型，分为封闭赛道和开放赛道。

封闭赛道模型：针对特定L1单独训练，包括 baseline_closed_es、baseline_closed_de、baseline_closed_cn。
开放赛道模型：baseline_open_xx，在所有L1数据上联合训练。
模型获取：基线模型未包含在GitHub仓库中，需从Hugging Face Hub下载（地址：https://huggingface.co/lucyskidmore/models）。

模型参数

模型元数据和超参数记录在 models/model_parameters.csv 文件中。

元数据列：model_name、track、pretrained_model、L1、component_order。
超参数列：batch_size、learning_rate、weight_decay、warmup_ratio、epochs。

评估与结果

评估指标

使用均方根误差（RMSE）和皮尔逊相关系数（Pearson correlation）进行评估。

基线模型性能

在开发集上的评估结果如下：

封闭赛道：
- baseline_closed_es (es): RMSE 1.357, Pearson 0.748
- baseline_closed_de (de): RMSE 1.328, Pearson 0.753
- baseline_closed_cn (cn): RMSE 1.175, Pearson 0.736
开放赛道：
- baseline_open_xx (es): RMSE 1.206, Pearson 0.787
- baseline_open_xx (de): RMSE 1.149, Pearson 0.800
- baseline_open_xx (cn): RMSE 1.021, Pearson 0.804

结果文件保存在 results/results_summary_dev.csv。

使用与预测

预测文件要求

用户自定义模型的预测文件需满足以下要求：

存放路径：predictions/{track}/{dataset_split}/{L1}/{your_model_name}_preds.csv
命名规范：{your_model_name}_preds.csv
必需列：必须包含 item_id 和 prediction 两列。

工具脚本

仓库提供完整的工具脚本用于复现基线、训练新模型和评估预测。

主要脚本：run_pipeline.py、finetune.py、predict.py、evaluate.py、utils.py、download.py。

搜集汇总

数据集介绍

构建方式

在英语作为第二语言习得的研究领域，词汇难度预测对于教学材料分级和自适应学习系统开发具有重要意义。BEA 2026共享任务数据集构建于英国理事会知识型词汇列表研究基础之上，其核心数据来源于Schmitt等人（2024）通过广义线性混合模型（GLMM）生成的词汇难度估计值。该数据集以CSV格式组织，针对西班牙语、德语和汉语母语者分别提供平行语料，每个文件包含6768个词汇项目，涵盖目标词、词性、拼写线索、母语对应词及语境提示等多维度特征，并通过划分训练集、开发集和测试集来支持模型训练与评估。

使用方法

研究者可通过克隆GitHub仓库并配置Conda环境快速启动该数据集的应用流程。数据集使用依托于Hugging Face Transformers库构建的标准化管道，运行run_pipeline.py脚本即可顺序执行模型下载、预测生成与性能评估步骤。用户可选择对预训练的基线模型进行微调，或直接利用已提供的预测结果进行评估；评估指标包括均方根误差和皮尔逊相关系数，能全面衡量模型预测精度与难度分数的关联强度。为扩展研究，用户可将自定义模型的预测文件按规范路径存放，系统会自动纳入评估框架，这种模块化设计极大便利了不同预测方法的对比验证。

背景与挑战

背景概述

在第二语言习得与教育技术交叉领域，词汇习得研究长期面临量化评估的复杂性。英国文化协会于2026年发起的BEA共享任务，旨在构建面向英语学习者的词汇难度预测数据集。该数据集基于Schmitt等人（2024）的知识型词汇列表研究，通过广义线性混合模型生成词汇难度分数，覆盖西班牙语、德语和汉语母语者共6768个平行词汇项目。核心研究聚焦于跨语言迁移下的词汇认知难度建模，为自适应学习系统与个性化教学资源开发提供实证基础，推动了计算语言学与教育测量的深度融合。

当前挑战

该数据集致力于解决英语作为第二语言教学中词汇难度量化预测的挑战，需克服不同母语背景学习者认知差异对模型泛化能力的制约。构建过程中面临多重复杂性：首先需整合多语言平行语料，确保词汇项目的语义与语境等效性；其次，广义线性混合模型生成的难度分数需平衡心理测量学特性与计算可操作性；再者，数据集设计需兼容封闭与开放双轨评估框架，同时处理词汇拼写线索、词性标注与跨语言对应关系等多模态特征，这对数据标注一致性与模型输入表征提出了极高要求。

常用场景

经典使用场景

在第二语言习得与教育技术领域，词汇习得难度的量化评估一直是核心研究课题。BEA 2026共享任务数据集通过提供包含英语目标词、母语提示及GLMM难度分数的平行语料，为研究者构建词汇难度预测模型提供了标准化的基准。该数据集最经典的使用场景是作为共享任务的核心资源，驱动参赛团队开发能够准确预测不同母语背景学习者词汇习得难度的机器学习模型，尤其侧重于比较封闭式（语言特定）与开放式（跨语言通用）建模策略的性能差异。

解决学术问题

该数据集有效解决了第二语言词汇习得研究中长期存在的若干关键问题。其一，它通过GLMM分数这一基于大规模学习者语料库的统计估计，为词汇难度提供了客观、连续的量化指标，超越了传统基于词频或专家评级的离散化分类。其二，数据集涵盖西班牙语、德语和汉语三种不同母语背景，使得研究者能够系统探究母语迁移对英语词汇习得难度的特异性影响，从而深化对跨语言干扰与促进机制的理论理解。其构建为验证和比较不同预测模型（如Transformer基线）提供了统一框架。

实际应用

该数据集的实际应用价值主要体现在自适应语言学习系统与教育内容个性化推荐领域。基于该数据集训练的预测模型，能够集成到数字化学习平台中，动态评估学习者在接触新词汇时可能面临的挑战。例如，系统可以根据学习者的母语背景和当前词汇知识水平，自动调整阅读材料中词汇的呈现顺序或提供差异化的释义与练习，从而实现学习路径的个性化定制。这有助于提升语言教学效率，优化学习者的认知负荷，并为教材编写与课程设计提供数据驱动的决策支持。

数据集最近研究