CCAE-Corpus|语言变体研究数据集|语料库数据集
收藏CCAE数据集概述
数据集名称: CCAE(Corpus of Chinese-based Asian Englishes)
数据集描述:
- CCAE是一个包含六种基于中文的亚洲英语变体的多变体语料库,基于3.4亿个令牌和44.8万个来自六个地区的网络文档。
- 该数据集是首个也是最大的公开可访问的网络爬虫语料库,用于研究中文英语和基于中文的亚洲英语。
- 数据集经过文档级别的去重和清洗,保持了文档来源的可追溯性,适用于语言变体识别、词汇变异识别等下游任务。
数据集规模:
- 总收集的WARC文件大小为101GB。
- 去重后包含44.8万份文档和3.4亿个单词令牌。
数据集特点:
- 首个也是最大的NLP导向的亚洲英语和世界英语语料库。
- 文档级别的去重和清洗,确保数据质量。
- 文档来源可追溯,符合GDPR要求。
数据集应用:
- 用于亚洲英语(特别是中文英语)的研究。
- 支持特定语言模型的构建和下游任务。
数据集访问: CCAE数据集
数据集详细信息
数据来源分布:
- 分析了每个变体中最频繁的顶级域名(TLD),主要来自.com、.net、.org等。
- 特定变体的TLD占比较高,如“中国大陆”中.cn占57%,“香港”中.hk占34%。
发布日期信息:
- 通过Google搜索和Internet Archive确定文档发布日期,使用较早的日期作为发布日期。
- 约96%的URL日期分布在2011至2022年之间,存在长尾分布。
数据集统计:
- 展示了清理后语料库的磁盘大小、收集的网站、文档和令牌的基本统计数据。
数据集比较
与其他语料库的比较:
- 与GloWbE、ICE、ACE和WikiText-103等语料库进行了比较,展示了CCAE在规模和应用上的独特性。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录
Cultural Dimensions Dataset
该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。
geerthofstede.com 收录