CCAE-Corpus

github2023-12-06 更新2024-05-31 收录

下载链接：

https://github.com/jacklanda/CCAE

下载链接

链接失效反馈

官方服务：

资源简介：

CCAE是一个基于中文的亚洲英语语料库，包含六种基于中文的亚洲英语变体，基于3.4亿个令牌和44.8万个网络文档。该数据集是首个也是最大的公开可访问的网络爬虫语料库，用于中文英语和基于中文的亚洲英语，适用于特定语言模型的语言变体研究和下游任务。

The CCAE (Chinese-based Corpus of Asian English) is a Chinese-based Asian English corpus comprising six Chinese-based Asian English variants, based on 340 million tokens and 448,000 web documents. This dataset represents the first and largest publicly accessible web-crawled corpus for Chinese English and Chinese-based Asian English, suitable for research on language variants and downstream tasks for specific language models.

创建时间：

2023-10-08

原始信息汇总

CCAE数据集概述

数据集名称： CCAE（Corpus of Chinese-based Asian Englishes）

数据集描述：

CCAE是一个包含六种基于中文的亚洲英语变体的多变体语料库，基于3.4亿个令牌和44.8万个来自六个地区的网络文档。
该数据集是首个也是最大的公开可访问的网络爬虫语料库，用于研究中文英语和基于中文的亚洲英语。
数据集经过文档级别的去重和清洗，保持了文档来源的可追溯性，适用于语言变体识别、词汇变异识别等下游任务。

数据集规模：

总收集的WARC文件大小为101GB。
去重后包含44.8万份文档和3.4亿个单词令牌。

数据集特点：

首个也是最大的NLP导向的亚洲英语和世界英语语料库。
文档级别的去重和清洗，确保数据质量。
文档来源可追溯，符合GDPR要求。

数据集应用：

用于亚洲英语（特别是中文英语）的研究。
支持特定语言模型的构建和下游任务。

数据集访问： CCAE数据集

数据集详细信息

数据来源分布：

分析了每个变体中最频繁的顶级域名（TLD），主要来自.com、.net、.org等。
特定变体的TLD占比较高，如“中国大陆”中.cn占57%，“香港”中.hk占34%。

发布日期信息：

通过Google搜索和Internet Archive确定文档发布日期，使用较早的日期作为发布日期。
约96%的URL日期分布在2011至2022年之间，存在长尾分布。

数据集统计：

展示了清理后语料库的磁盘大小、收集的网站、文档和令牌的基本统计数据。

数据集比较

与其他语料库的比较：

与GloWbE、ICE、ACE和WikiText-103等语料库进行了比较，展示了CCAE在规模和应用上的独特性。

搜集汇总

数据集介绍

构建方式

CCAE语料库的构建基于网络爬虫技术，通过Google高级搜索从六个地区的448,000个网页文档中收集了340百万个词符。数据经过文档级别的去重和清洗，确保语料库的高质量。每个文档都保留了其来源的可追溯性，便于研究者追踪数据出处，并遵守GDPR等数据保护法规。此外，语料库还通过自定义管道进行数据清洗，确保数据的纯净度和可用性。

特点

CCAE语料库是首个面向中文英语及基于中文的亚洲英语的大规模开放访问语料库，涵盖了六种不同的亚洲英语变体。其显著特点包括：文档级别的去重和清洗、数据来源的可追溯性、以及对下游任务如语言变体识别和词汇变异识别的支持。语料库的构建不仅填补了中文英语公开语料库的空白，还为基于NLP的世界英语研究提供了理想的数据资源。

使用方法

CCAE语料库可通过Hugging Face平台访问，适用于多种自然语言处理任务，如语言变体识别、词汇变异分析等。研究者可以通过提供的API接口轻松加载和使用语料库数据。此外，语料库的文档级元数据（如发布日期和来源域名）为深入研究提供了丰富的上下文信息。使用该语料库时，建议结合其提供的清洗和去重策略，以确保研究结果的准确性和可靠性。

背景与挑战

背景概述

CCAE-Corpus是由Yang Liu和Melissa Xiaohui Qin等研究人员于2023年创建的一个专注于中文为基础的亚洲英语变体的多语料库。该数据集基于来自六个地区的448,000个网页文档，包含3.4亿个词元，旨在为亚洲英语（特别是中文英语）的研究提供首个公开可访问的语料库。CCAE-Corpus的构建标志着自然语言处理技术在“世界英语”研究领域的初步应用，填补了该领域的数据空白。该数据集不仅为语言变体识别、词汇变异识别等下游任务提供了基础数据资源，还为基于NLP的世界英语研究奠定了基础。其初步实验结果表明，CCAE在语言建模和下游任务中具有显著的实用价值。

当前挑战

CCAE-Corpus在构建过程中面临多重挑战。首先，数据收集的广度和深度要求极高，需从六个不同地区获取大量网页文档，并确保数据的多样性和代表性。其次，数据清洗和去重是另一大挑战，研究者需设计定制化的处理流程以保证数据质量。此外，文档的溯源问题也需解决，以满足GDPR等数据隐私法规的要求。在语言变体研究领域，CCAE-Corpus还需应对语言快速变化带来的挑战，例如如何准确捕捉语言使用的时间动态性。这些挑战不仅影响了数据集的构建过程，也对其在语言变体识别和建模任务中的应用提出了更高的要求。

常用场景

经典使用场景

CCAE-Corpus作为首个专注于中国及亚洲地区英语变体的开放访问语料库，广泛应用于语言变体研究领域。其经典使用场景包括语言模型训练、语言变体识别以及词汇变异分析等任务。通过提供来自六个地区的448千份网页文档和340百万个词元，CCAE-Corpus为研究者提供了丰富的语言数据，支持对亚洲英语变体的深入分析。

解决学术问题

CCAE-Corpus解决了亚洲英语变体研究中数据匮乏的问题，尤其是针对中国英语变体的公开语料库缺失问题。通过提供大规模的、经过清洗和去重的语料数据，该数据集为语言变体研究提供了坚实的基础，推动了基于自然语言处理技术的世界英语研究。此外，CCAE-Corpus还为语言模型的下游任务，如语言变体识别和词汇变异分析，提供了理想的数据资源。

衍生相关工作

CCAE-Corpus的发布催生了一系列相关研究，特别是在亚洲英语变体识别和语言模型优化方面。例如，基于CCAE-Corpus的研究工作已经开发出多种语言变体识别算法，并成功应用于跨文化交际分析。此外，该数据集还为语言模型的训练提供了新的基准，推动了自然语言处理技术在语言变体研究中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集