UD English-ESL/TLE

github2021-04-30 更新2024-05-31 收录

下载链接：

https://github.com/tomelf/CNIT623-Native-Language-Identification-On-English-Learner-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

UD English-ESL/TLE是一个包含5,124个英语作为第二语言（ESL）句子的数据集，共有97,681个单词，手动标注了POS标签和依赖树，遵循Universal Dependencies规范。每个句子都标注了原始形式和错误修正形式。该数据集代表了来自10种母语背景的高级中级成人英语学习者，每种母语超过500个句子。句子随机抽取自剑桥学习者语料库的FCE子集。数据集被随机分为训练集4,124个句子，开发集500个句子，测试集500个句子。

UD English-ESL/TLE is a dataset containing 5,124 English as a Second Language (ESL) sentences with a total of 97,681 words. All sentences are manually annotated with part-of-speech (POS) tags and dependency trees in compliance with the Universal Dependencies framework. Each sentence is labeled with both its original form and error-corrected version. The dataset is derived from upper-intermediate adult English learners across 10 native language backgrounds, with over 500 sentences corresponding to each native language. Sentences were randomly sampled from the FCE subset of the Cambridge Learner Corpus. The full dataset is randomly split into a training set (4,124 sentences), a development set (500 sentences), and a test set (500 sentences).

创建时间：

2018-03-22

原始信息汇总

数据集概述

数据集名称

UD English-ESL/TLE

数据集描述

该数据集包含5,124个英语作为第二语言（ESL）的句子（共97,681个单词），这些句子均按照Universal Dependencies形式手动标注了POS标签和依赖树。每个句子都提供了原始形式和错误修正后的形式。标注遵循标准英语UD指南，以及针对ESL的补充指南。数据集代表了来自10种母语背景的上中级成人英语学习者，每种母语背景超过500个句子。这些句子随机抽取自剑桥学习者语料库中的First Certificate in English（FCE）语料库。数据集被随机分为训练集4,124个句子，开发集500个句子，测试集500个句子。

数据集文件格式

原始数据

考试题目: dataset/UD_English-ESL/fce-released-dataset/prompts/[folders]/doc[number].xml
学习者答案: dataset/UD_English-ESL/fce-released-dataset/dataset/[folders]/doc[number].xml

标注数据

原始句子:
- dataset/UD_English-ESL/data/en_esl-ud-train.conllu
- dataset/UD_English-ESL/data/en_esl-ud-dev.conllu
- dataset/UD_English-ESL/data/en_esl-ud-test.conllu
修正后句子:
- dataset/UD_English-ESL/data/corrected/en_cesl-ud-train.conllu
- dataset/UD_English-ESL/data/corrected/en_cesl-ud-dev.conllu
- dataset/UD_English-ESL/data/corrected/en_cesl-ud-test.conllu

数据集属性

每个单词的属性包括：

id: 单词在句子中的索引
form: 单词
lemma: 词元
upostag: POS标签
xpostag: POS标签
feats: 特征
head: 头词
deprel: 依赖关系
deps: 依赖
misc: 杂项

数据加载器

数据加载器用于加载数据，需要安装CoNLL-U Parser。加载器可以加载训练集、开发集和测试集的元数据和数据。

搜集汇总

数据集介绍

构建方式

TLE数据集构建于剑桥学习者语料库中的FCE（First Certificate in English）考试数据，涵盖了来自10种母语背景的成人英语学习者的5,124个句子。每个句子均以原始形式和纠错后的形式进行标注，标注内容包括词性标签和依存句法树，遵循通用依存关系（UD）标准及针对ESL的补充指南。数据集被随机划分为训练集（4,124句）、开发集（500句）和测试集（500句），以确保其广泛适用性和代表性。

使用方法

TLE数据集的使用方法较为灵活，用户可通过CoNLL-U格式访问标注数据，包括原始句子和纠错后的句子。数据加载器支持加载训练集、开发集和测试集，用户可通过Python脚本调用数据加载器，获取元数据和句子数据。元数据包含学习者的母语、年龄范围、分数等信息，而句子数据则详细记录了每个词的词性、依存关系等语言学特征。此外，数据集还提供了预处理后的文件，便于进一步分析和建模。

背景与挑战

背景概述

TLE数据集是一个专门为英语作为第二语言（ESL）学习者设计的语料库，包含了5,124个句子，共计97,681个单词，这些句子均经过人工标注，标注内容包括词性（POS）标签和依存句法树，遵循通用依存关系（Universal Dependencies, UD）的标准。该数据集由剑桥学习者语料库中的FCE（First Certificate in English）考试材料构建而成，涵盖了10种不同母语背景的成人学习者，每种母语背景的句子数量均超过500条。数据集的创建旨在为自然语言处理领域提供高质量的标注数据，特别是在英语学习者语言错误分析和自动纠错方面具有重要应用价值。

当前挑战

TLE数据集在构建和应用过程中面临多重挑战。首先，英语学习者的语言错误具有多样性和复杂性，如何准确标注这些错误并生成高质量的依存句法树是一个技术难题。其次，数据集的构建依赖于人工标注，标注过程中需要遵循严格的UD标准，同时还需处理学习者特有的语言现象，这对标注人员的专业知识和耐心提出了较高要求。此外，数据集的多样性和规模虽然为研究提供了丰富资源，但也增加了数据处理和模型训练的复杂性，尤其是在跨语言背景下的错误分析和纠错任务中，模型的泛化能力面临严峻考验。

常用场景

经典使用场景

TLE数据集在自然语言处理领域中被广泛应用于第二语言学习研究，特别是针对英语作为第二语言（ESL）的学习者。该数据集包含了大量由非母语者撰写的句子，并标注了词性标签和依存句法树，为研究者提供了丰富的语言错误分析资源。通过分析这些错误，研究者能够深入理解学习者在语法、词汇和句法上的常见问题，进而设计更有效的语言教学策略。

解决学术问题

TLE数据集解决了第二语言学习中的关键问题，尤其是如何识别和纠正学习者的语言错误。通过提供原始句子和修正后的句子，该数据集为研究者提供了对比分析的依据，帮助揭示学习者在不同语言背景下的错误模式。这不仅有助于改进自动语法纠错系统，还为语言教学提供了科学依据，推动了第二语言习得理论的发展。

实际应用

在实际应用中，TLE数据集被广泛用于开发智能语言学习工具和自动语法纠错系统。例如，基于该数据集训练的模型可以嵌入到在线语言学习平台中，实时检测学习者的写作错误并提供修正建议。此外，教育机构也可以利用该数据集分析学习者的语言能力，制定个性化的教学计划，从而提高教学效果。

数据集最近研究