Corpus of Online Registers of English (CORE)

github2022-12-21 更新2024-05-31 收录

下载链接：

https://github.com/TurkuNLP/CORE-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于Corpus of Online Registers of English (CORE)，由Biber等人设计并编译。它用于模型注册变异研究，数据文件以简单的.tsv格式存储，包含注册标签、CORE文档ID和文本内容。

This dataset is based on the Corpus of Online Registers of English (CORE), designed and compiled by Biber et al. It is utilized for the study of model register variation, with data files stored in a simple .tsv format, containing register labels, CORE document IDs, and textual content.

创建时间：

2022-08-02

原始信息汇总

Corpus of Online Registers of English (CORE)

数据集概述

原始设计与编纂者：Douglas Biber, Jesse Egbert, Mark Davies
数据集用途：用于模型注册变异研究
引用文献：
- Veronika Laippala, Samuel Rönnqvist, Miika Oinonen, Aki-Juhani Kyröläinen, Anna Salmela, Douglas Biber, Jesse Egbert, Sampo Pyysalo (2022): Register identification from the unrestricted open Web using the Corpus of Online Registers of English. Language resources and evaluation.

数据集格式

文件格式：.tsv
数据结构：
- 第一列：注册标签
- 第二列：CORE文档ID
- 第三列：文本内容
注册标签说明：详见register_label_abbreviations.txt

许可证

详情请见LICENSE.txt

搜集汇总

数据集介绍

构建方式

Corpus of Online Registers of English (CORE) 数据集的构建基于Biber等人设计的原始语料库，旨在研究网络文本中的语域变异。该语料库的构建过程涉及从开放网络中收集大量文本，并通过用户驱动的方法进行分类。具体而言，研究者们采用自下而上的方式，结合多维分析技术，对网络文本进行语域标注，确保语料库能够反映真实的网络语言使用情况。

特点

CORE数据集的特点在于其广泛的语域覆盖和精细的标注体系。数据集包含多种网络文本类型，如博客、新闻、论坛等，每种文本均通过特定的语域标签进行标注。此外，数据集采用简单的TSV格式存储，便于用户快速解析和处理。语域标签的缩写信息也随数据集提供，进一步增强了数据的可解释性和实用性。

使用方法

使用CORE数据集时，用户可通过读取TSV格式的文件获取文本及其对应的语域标签。每行数据包含三个字段：语域标签、文档ID和文本内容。用户可根据研究需求，利用这些数据进行语域识别、文本分类或语言变异分析。为保持学术规范，使用该数据集时需引用相关研究文献，以确保数据来源的透明性和可追溯性。

背景与挑战

背景概述

Corpus of Online Registers of English (CORE) 是由 Douglas Biber、Jesse Egbert 和 Mark Davies 等学者于2015年至2018年间设计和构建的语料库，旨在研究在线文本的语域变异。该语料库的创建基于对网络文本的多维度分析，涵盖了多种在线语域，如博客、新闻、论坛等。CORE 的核心研究问题在于如何通过自下而上的用户驱动方法对网络语域进行分类，并揭示不同语域在语言特征上的差异。该语料库的构建为语言学家和计算语言学家提供了丰富的资源，推动了语域变异研究的发展，并在自然语言处理领域产生了广泛影响。

当前挑战

CORE 数据集在解决语域分类问题时面临的主要挑战在于如何准确识别和分类网络文本的语域。由于网络文本的多样性和复杂性，传统的语域分类方法难以应对。此外，构建过程中还面临着数据采集的挑战，包括如何从开放网络中获取具有代表性的文本样本，并确保数据的多样性和平衡性。另一个挑战在于如何设计有效的标注框架，以捕捉不同语域的语言特征，并确保标注的一致性和准确性。这些挑战不仅影响了语料库的构建质量，也对后续的语域分析和应用提出了更高的要求。

常用场景

经典使用场景

Corpus of Online Registers of English (CORE)数据集广泛应用于语言学和计算语言学领域，特别是在研究网络文本的语域变异方面。该数据集通过标注不同网络文本的语域标签，为研究者提供了一个丰富的资源，用于分析和比较不同网络环境下的语言使用模式。通过CORE，研究者能够深入探讨网络文本的语言特征及其在不同语境下的变化。

衍生相关工作

CORE数据集衍生了许多经典的研究工作，特别是在语域识别和语言变异分析方面。例如，Laippala等人（2022）利用CORE开发了一种基于无限制开放网络的语域识别方法，显著提升了语域分类的准确性。此外，Biber和Egbert（2018）的研究进一步扩展了CORE的应用范围，探讨了网络文本的多维度语言特征，为后续研究提供了重要的理论基础。

数据集最近研究

Corpus of Online Registers of English (CORE)

Corpus of Online Registers of English (CORE)

数据集概述

数据集格式

相关出版物

许可证