CCAE-Corpus|语言变体研究数据集|语料库数据集

github2023-12-06 更新2024-05-31 收录

语言变体研究

语料库

下载链接：

https://github.com/jacklanda/CCAE

下载链接

链接失效反馈

资源简介：

CCAE是一个基于中文的亚洲英语语料库，包含六种基于中文的亚洲英语变体，基于3.4亿个令牌和44.8万个网络文档。该数据集是首个也是最大的公开可访问的网络爬虫语料库，用于中文英语和基于中文的亚洲英语，适用于特定语言模型的语言变体研究和下游任务。

The CCAE (Chinese-based Corpus of Asian English) is a Chinese-based Asian English corpus comprising six Chinese-based Asian English variants, based on 340 million tokens and 448,000 web documents. This dataset represents the first and largest publicly accessible web-crawled corpus for Chinese English and Chinese-based Asian English, suitable for research on language variants and downstream tasks for specific language models.

创建时间：

2023-10-08

原始信息汇总

CCAE数据集概述

数据集名称： CCAE（Corpus of Chinese-based Asian Englishes）

数据集描述：

CCAE是一个包含六种基于中文的亚洲英语变体的多变体语料库，基于3.4亿个令牌和44.8万个来自六个地区的网络文档。
该数据集是首个也是最大的公开可访问的网络爬虫语料库，用于研究中文英语和基于中文的亚洲英语。
数据集经过文档级别的去重和清洗，保持了文档来源的可追溯性，适用于语言变体识别、词汇变异识别等下游任务。

数据集规模：

总收集的WARC文件大小为101GB。
去重后包含44.8万份文档和3.4亿个单词令牌。

数据集特点：

首个也是最大的NLP导向的亚洲英语和世界英语语料库。
文档级别的去重和清洗，确保数据质量。
文档来源可追溯，符合GDPR要求。

数据集应用：

用于亚洲英语（特别是中文英语）的研究。
支持特定语言模型的构建和下游任务。

数据集访问： CCAE数据集

数据集详细信息

数据来源分布：

分析了每个变体中最频繁的顶级域名（TLD），主要来自.com、.net、.org等。
特定变体的TLD占比较高，如“中国大陆”中.cn占57%，“香港”中.hk占34%。

发布日期信息：

通过Google搜索和Internet Archive确定文档发布日期，使用较早的日期作为发布日期。
约96%的URL日期分布在2011至2022年之间，存在长尾分布。

数据集统计：

展示了清理后语料库的磁盘大小、收集的网站、文档和令牌的基本统计数据。

数据集比较

与其他语料库的比较：

与GloWbE、ICE、ACE和WikiText-103等语料库进行了比较，展示了CCAE在规模和应用上的独特性。

AI搜集汇总

数据集介绍

构建方式

CCAE语料库的构建基于网络爬虫技术，通过Google高级搜索从六个地区的448,000个网页文档中收集了340百万个词符。数据经过文档级别的去重和清洗，确保语料库的高质量。每个文档都保留了其来源的可追溯性，便于研究者追踪数据出处，并遵守GDPR等数据保护法规。此外，语料库还通过自定义管道进行数据清洗，确保数据的纯净度和可用性。

特点

CCAE语料库是首个面向中文英语及基于中文的亚洲英语的大规模开放访问语料库，涵盖了六种不同的亚洲英语变体。其显著特点包括：文档级别的去重和清洗、数据来源的可追溯性、以及对下游任务如语言变体识别和词汇变异识别的支持。语料库的构建不仅填补了中文英语公开语料库的空白，还为基于NLP的世界英语研究提供了理想的数据资源。

使用方法

CCAE语料库可通过Hugging Face平台访问，适用于多种自然语言处理任务，如语言变体识别、词汇变异分析等。研究者可以通过提供的API接口轻松加载和使用语料库数据。此外，语料库的文档级元数据（如发布日期和来源域名）为深入研究提供了丰富的上下文信息。使用该语料库时，建议结合其提供的清洗和去重策略，以确保研究结果的准确性和可靠性。

背景与挑战

背景概述

CCAE-Corpus是由Yang Liu和Melissa Xiaohui Qin等研究人员于2023年创建的一个专注于中文为基础的亚洲英语变体的多语料库。该数据集基于来自六个地区的448,000个网页文档，包含3.4亿个词元，旨在为亚洲英语（特别是中文英语）的研究提供首个公开可访问的语料库。CCAE-Corpus的构建标志着自然语言处理技术在“世界英语”研究领域的初步应用，填补了该领域的数据空白。该数据集不仅为语言变体识别、词汇变异识别等下游任务提供了基础数据资源，还为基于NLP的世界英语研究奠定了基础。其初步实验结果表明，CCAE在语言建模和下游任务中具有显著的实用价值。

当前挑战

CCAE-Corpus在构建过程中面临多重挑战。首先，数据收集的广度和深度要求极高，需从六个不同地区获取大量网页文档，并确保数据的多样性和代表性。其次，数据清洗和去重是另一大挑战，研究者需设计定制化的处理流程以保证数据质量。此外，文档的溯源问题也需解决，以满足GDPR等数据隐私法规的要求。在语言变体研究领域，CCAE-Corpus还需应对语言快速变化带来的挑战，例如如何准确捕捉语言使用的时间动态性。这些挑战不仅影响了数据集的构建过程，也对其在语言变体识别和建模任务中的应用提出了更高的要求。

常用场景

经典使用场景

CCAE-Corpus作为首个专注于中国及亚洲地区英语变体的开放访问语料库，广泛应用于语言变体研究领域。其经典使用场景包括语言模型训练、语言变体识别以及词汇变异分析等任务。通过提供来自六个地区的448千份网页文档和340百万个词元，CCAE-Corpus为研究者提供了丰富的语言数据，支持对亚洲英语变体的深入分析。

解决学术问题

CCAE-Corpus解决了亚洲英语变体研究中数据匮乏的问题，尤其是针对中国英语变体的公开语料库缺失问题。通过提供大规模的、经过清洗和去重的语料数据，该数据集为语言变体研究提供了坚实的基础，推动了基于自然语言处理技术的世界英语研究。此外，CCAE-Corpus还为语言模型的下游任务，如语言变体识别和词汇变异分析，提供了理想的数据资源。

衍生相关工作

CCAE-Corpus的发布催生了一系列相关研究，特别是在亚洲英语变体识别和语言模型优化方面。例如，基于CCAE-Corpus的研究工作已经开发出多种语言变体识别算法，并成功应用于跨文化交际分析。此外，该数据集还为语言模型的训练提供了新的基准，推动了自然语言处理技术在语言变体研究中的应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息，基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条，但消极评论与中立评论远远大于积极评论。因此作特殊处理后，积极数据2601条，消极数据2367条，中立数据2725条，共7693条数据。

github 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论（Hofstede's Cultural Dimensions Theory）的相关数据，涵盖了多个国家和地区的文化维度评分，如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录