five

CLUECorpus2020|中文自然语言处理数据集|预训练数据集数据集

收藏
arXiv2020-03-05 更新2024-06-21 收录
中文自然语言处理
预训练数据集
下载链接:
https://github.com/CLUEbenchmark/CLUECorpus2020/
下载链接
链接失效反馈
资源简介:
CLUECorpus2020是由CLUE组织创建的大型中文语料库,旨在支持语言模型的预训练和语言生成。该数据集包含100GB的原始文本,总计350亿个中文字符,来源于Common Crawl。数据集被分为训练、开发和测试集,每个文件都遵循预训练格式。创建过程中,通过详细的过滤和提取规则,确保数据质量。CLUECorpus2020广泛应用于中文自然语言处理任务,如语言理解和生成,旨在提升模型在中文环境下的性能。

CLUECorpus2020 is a large-scale Chinese corpus created by the CLUE organization, designed to support the pre-training of language models and language generation. The dataset contains 100GB of original text, totaling 35 billion Chinese characters, sourced from Common Crawl. It is divided into training, development, and test sets, with each file adhering to the pre-training format. During the creation process, detailed filtering and extraction rules were applied to ensure data quality. CLUECorpus2020 is widely used in Chinese natural language processing tasks such as language understanding and generation, aiming to enhance model performance in the Chinese environment.
提供机构:
CLUE组织
创建时间:
2020-03-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
CLUECorpus2020的构建基于Common Crawl的网络爬取数据,经过精细的筛选和处理,最终形成了一个包含100GB原始文本、约350亿个中文字符的大型语料库。该数据集的构建过程中,采用了多种过滤规则,如去除无效字符、重复内容以及包含不良词汇的句子,确保了数据的高质量和适用性。此外,数据集按照99:0.5:0.5的比例随机划分为训练集、开发集和测试集,以支持不同阶段的模型训练和评估。
特点
CLUECorpus2020的主要特点在于其规模庞大且质量上乘,适用于自监督学习任务,如语言模型的预训练和语言生成。该数据集不仅覆盖了广泛的主题领域,还包含了一个精简的8K词汇表(vocab clue),该词汇表仅为Google发布的BERT中文词汇表大小的三分之一,但在性能上却能与之媲美,显著降低了计算成本和内存占用。此外,数据集还提供了预训练模型的大版本和小版本,分别在性能和速度上有所优化。
使用方法
CLUECorpus2020可广泛应用于自然语言处理的各种任务,包括但不限于语言模型的预训练、文本分类、情感分析和机器翻译等。用户可以直接使用数据集进行自监督学习,或利用其提供的预训练模型进行微调,以适应特定的下游任务。此外,数据集的开放性和详细的使用文档,使得研究人员和开发者能够轻松地进行实验和应用开发,推动中文自然语言处理领域的发展。
背景与挑战
背景概述
在自然语言处理(NLP)领域,预训练语言模型已成为主流范式,其通过在大规模未标注文本上预训练模型,然后在下游任务上微调,显著提升了模型性能。然而,尽管英文领域已有多个大规模预训练数据集,如C4和WebText,中文领域却缺乏类似的高质量、大规模数据集。为此,CLUE组织于2020年发布了CLUECorpus2020,这是一个包含100GB原始文本、350亿中文字符的大规模中文语料库,旨在为中文预训练语言模型提供支持。该数据集的发布填补了中文NLP领域的空白,为研究人员提供了丰富的资源,推动了中文自然语言处理技术的发展。
当前挑战
尽管CLUECorpus2020为中文NLP领域带来了巨大的潜力,但其构建和应用过程中仍面临诸多挑战。首先,数据集的构建需要从Common Crawl中提取和过滤大量文本,这一过程涉及复杂的预处理和清洗步骤,以确保数据的质量和适用性。其次,数据集的规模和多样性要求高效的计算资源和存储解决方案,这对于许多研究机构和个人开发者而言是一个重大挑战。此外,如何有效地利用这一大规模数据集进行模型预训练,并在有限的计算资源下实现高性能,是当前研究的一个重要方向。最后,数据集的发布和维护需要持续的技术支持和社区协作,以确保其长期可用性和更新。
常用场景
经典使用场景
CLUECorpus2020 数据集最经典的使用场景在于预训练语言模型。通过利用该数据集,研究者可以训练出高性能的中文语言模型,这些模型在语言理解任务中表现出色。例如,BERT 和 RoBERTa 等模型在经过 CLUECorpus2020 的预训练后,能够在多种中文自然语言处理任务中达到最先进的性能。
解决学术问题
CLUECorpus2020 数据集解决了中文领域缺乏大规模预训练数据的问题。在自然语言处理领域,预训练模型依赖于大规模的文本数据进行训练,而此前中文领域缺乏这样的资源。CLUECorpus2020 的发布填补了这一空白,为研究者提供了丰富的中文文本数据,促进了中文自然语言处理技术的发展,具有重要的学术意义和实际应用价值。
衍生相关工作
CLUECorpus2020 数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究者们开发了多种中文预训练模型,如 RoBERTa-tiny-clue 和 RoBERTa-large-clue,这些模型在保持高性能的同时,显著降低了计算资源的需求。此外,CLUECorpus2020 还推动了对中文词汇表的优化研究,如 vocab clue 的提出,进一步提升了模型的效率和性能。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

限额以上批发业法人企业

限额以上批发业法人企业,包含按登记注册类型分、按国民经济行业分(2017)的限额以上批发业法人企业个数、从业人数、购进总额、销售总额、年末库存额等信息。

贵州省公共数据授权运营-公共数据开放平台 收录