The University of Pittsburgh English Language Institute Corpus (PELIC)

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/ELI-Data-Mining-Group/PELIC-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个大型学习者语料库，包含书面和口头文本，收集于匹兹堡大学强化英语课程的学术英语环境中，历时七年，由具有广泛语言背景和熟练程度的学生制作。与大多数横断面学习者语料库不同，PELIC是纵向的，提供了在自然课堂环境中跟踪发展的更大机会。

This is a large learner corpus comprising both written and spoken texts, collected over seven years in an academic English context within the Intensive English Program at the University of Pittsburgh. It was produced by students with a wide range of linguistic backgrounds and proficiency levels. Unlike most cross-sectional learner corpora, PELIC is longitudinal, offering greater opportunities to track development in a natural classroom setting.

创建时间：

2020-08-18

原始信息汇总

数据集概述

数据集名称

The University of Pittsburgh English Language Institute Corpus (PELIC)

版本

Version 1.1

作者

Alan Juffs, Na-Rae Han, Ben Naismith

联系方式

bnaismith@pitt.edu

数据集引用

Juffs, A., Han, N-R., & Naismith, B. (2020). The University of Pittsburgh English Language Corpus (PELIC) [Data set]. http://doi.org/10.5281/zenodo.3991977

数据集描述

PELIC是一个大型学习者语料库，包含书面和口语文本。这些文本是在匹兹堡大学强化英语课程的英语学术用途（EAP）背景下，由具有广泛语言背景和熟练程度的学生在七年内收集的。与大多数横断面学习者语料库不同，PELIC是纵向的，提供了在自然课堂环境中跟踪发展的更大机会。

数据集内容

数据集包含以下文件：

answer.csv
course.csv
question.csv
student_information.csv
test_scores.csv
PELIC_compiled.csv

数据集统计

学生数：1177
文本数：46230
令牌数：4250703
词类型数：39623
引理类型数：39307

数据集下载

建议使用GitHub和克隆整个仓库进行下载，需要使用git-lfs（Git Large File Storage）。

数据集处理

数据处理包括转换、清理、标准化、数据点筛选和匿名化。文本数据经过深度清理，包括格式化、字符转换和匿名化处理。此外，还进行了语言处理，包括令牌化、词性标注和词形还原。

数据集使用

数据集适用于语言学研究，特别是第二语言习得（SLA）领域。提供了多种工具和教程，以帮助研究人员访问和分析这些数据。

搜集汇总

数据集介绍

构建方式

PELIC数据集构建于匹兹堡大学英语语言学院（ELI）的学术英语（EAP）环境中，数据收集历时七年，涵盖了来自不同语言背景和英语水平的学生。数据最初存储在MySQL数据库中，包含学生的书面和口头产出。随后，数据经过转换、清理和匿名化处理，最终以CSV文件格式发布，便于研究者使用Python或R进行深入分析。数据处理的重点包括文本的标准化、匿名化以及语言学信息的添加，如词性标注和词形还原。

使用方法

PELIC数据集的使用方法包括通过GitHub克隆整个仓库或直接下载CSV文件。数据集包含多个文件，如`answer.csv`、`course.csv`和`student_information.csv`，分别记录了学生的文本、课程信息和学生背景。研究者可以使用Python或R对数据进行处理和分析，结合提供的工具和教程，探索学生在不同语言技能上的发展轨迹。数据集还提供了基于正则表达式的词符计数，便于研究者进行文本长度相关的分析。

背景与挑战

背景概述

匹兹堡大学英语语言学院语料库（PELIC）是由匹兹堡大学的Alan Juffs、Na-Rae Han和Ben Naismith等研究人员于2020年发布的一个大规模学习者语料库。该语料库收集了2005年至2012年间匹兹堡大学英语语言学院（ELI）学生在学术英语（EAP）环境中的书面和口头文本，涵盖了广泛的母语背景和语言水平的学生。PELIC的独特之处在于其纵向研究设计，能够追踪学生在自然课堂环境中的语言发展过程。该语料库的发布为学习者语料研究领域提供了宝贵的资源，尤其是在学术英语环境中语言发展的研究方面，具有重要的学术影响力。

当前挑战

PELIC语料库的构建面临多重挑战。首先，数据收集过程中需要处理来自不同语言背景和语言水平的学生文本，这导致了文本的多样性和复杂性。其次，数据清理和标准化过程极为繁琐，包括去除冗余数据、统一文本格式、处理编码错误等。特别是在处理学生文本中的拼写错误、标点符号使用不规范等问题时，研究人员不得不结合自动化和手动修正的方法。此外，语料库的匿名化处理也带来了挑战，需要确保学生和教师的个人信息不被泄露。最后，为了支持语言学分析，研究人员还进行了词性标注和词形还原等复杂的语言处理工作，这些步骤在确保数据质量的同时，也增加了数据处理的难度。

常用场景

经典使用场景

PELIC数据集广泛应用于第二语言习得（SLA）研究，特别是在英语学术用途（EAP）背景下。研究者利用该数据集分析学生在不同语言水平下的写作和口语表现，探索语言发展的纵向变化。通过追踪学生在多个学期的语言输出，研究者能够深入理解语言习得过程中的关键因素，如词汇复杂度、语法准确性和语言流利度。

解决学术问题

PELIC数据集解决了第二语言习得研究中的多个关键问题。首先，它提供了丰富的纵向数据，使得研究者能够追踪同一学生在不同时间点的语言发展轨迹。其次，数据集涵盖了多种语言背景和不同语言水平的学生，为跨语言和跨水平的比较研究提供了基础。此外，数据集中的多版本文本允许研究者分析教师反馈对学生语言改进的影响，进一步揭示了语言教学中的有效干预策略。

实际应用

在实际应用中，PELIC数据集被广泛用于开发语言教学工具和评估系统。教育机构可以利用该数据集中的学生语言输出数据，设计个性化的语言学习方案，帮助学生提高写作和口语能力。此外，语言测试机构可以基于该数据集开发更精准的语言水平评估工具，确保测试内容与实际语言使用场景相符。数据集的公开性也促进了语言教学资源的共享和优化。

数据集最近研究