CCAE/CCAE-Corpus

Name: CCAE/CCAE-Corpus
Creator: CCAE
Published: 2024-07-06 16:52:43
License: 暂无描述

Hugging Face2024-07-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CCAE/CCAE-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

CCAE数据集是一个专注于研究亚洲英语变体的多品种语料库，特别是基于中文的亚洲英语。该数据集包含来自六个地区的448,000个网页文档，共计3.4亿个标记。这些数据为亚洲英语（尤其是中文英语）的研究提供了丰富的资源，并且是进行特定变体语言建模和下游任务的理想选择。初步的实验结果已经展示了该数据集在实际应用中的价值。

The CCAE dataset is a multi-variety corpus focused on studying Asian Englishes, particularly Chinese-based Asian Englishes. It comprises 448,000 web documents from six regions, totaling 340 million tokens. This data serves as a rich resource for research on Asian Englishes (especially Chinese Englishes) and is an ideal choice for variety-specific language modeling and downstream tasks. Preliminary experimental results have already demonstrated the practical value of this dataset.

提供机构：

CCAE

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-nd-4.0
任务类别:
- 文本分类
- 文本生成
语言: 英语
数据集名称: Colorful Candies Are Exciting
数据集大小: 10万<n<100万

数据集描述

数据集名称: CCAE: A Corpus of Chinese-based Asian Englishes
数据集概述:
- CCAE是一个包含六种中国地区英语变体的多变体语料库，基于3.4亿个词汇和44.8万个网络文档。
- 该数据集适用于亚洲英语（特别是中国英语）的研究，以及特定语言模型的构建和下游任务。

语言变体

六种亚洲地区的英语变体: CHE, HKE, MCE, TWE, MYE, SGE

5,000+

优质数据集

54 个

任务类型

进入经典数据集