five

WanJuan2.0 (万卷-CC)|自然语言处理数据集|预训练数据集数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
自然语言处理
预训练数据集
下载链接:
https://opendatalab.org.cn/OpenDataLab/WanJuanCC
下载链接
链接失效反馈
资源简介:
WanJuan2.0(万卷-CC) 是从CommonCrawl获取的一个 1T Tokens 的高质量英文网络文本数据集。结果显示,与各类开源英文CC语料在 Perspective API 不同维度的评估上,WanJuan-CC都表现出更高的安全性。此外,通过在4个验证集上的困惑度(PPL)和6下游任务的准确率,也展示了WanJuan-CC的实用性。WanJuan-CC在各种验证集上的PPL表现出竞争力,特别是在要求更高语言流畅性的tiny-storys等集上。通过与同类型数据集进行1B模型训练对比,使用验证数据集的困惑度(perplexity)和下游任务的准确率作为评估指标,实验证明,WanJuan-CC显著提升了英文文本补全和通用英文能力任务的性能。
提供机构:
OpenDataLab
创建时间:
2024-01-15
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

长基线雷电密度24小时分布图

长基线雷电密度24小时分布图由长基线探测仪雷电探测数据加工制作而成,长基线探测仪雷电探测数据由分布在亚太地区的多个VLF电磁脉冲探测仪观测产生,本数据集数据产品制作时选取探测范围内24小时的长基线探测仪雷电探测数据计算雷电密度,并叠加探测范围内的地理信息进行制图,长基线雷电密度24小时分布图时间间隔为24小时,每日8时(北京时)分别生成一张,图片以JPEG方式存储,可用于每24小时闪电密度分布直观显示,供用户查看亚欧大陆、太平洋及印度洋大部分地区的雷电发生情况。

国家空间科学数据中心 收录

WHO Drug

WHO Drug数据集包含了世界卫生组织(WHO)发布的药物信息,包括药物的通用名称、国际非专利名称(INN)、化学名称、分子式、分子量、CAS登记号等详细信息。该数据集旨在为全球的药物研究和监管提供标准化的药物信息。

www.who.int 收录

lmarena-ai/arena-human-preference-100k

这个数据集包含了2024年6月至2024年8月期间收集的排行榜对话数据。它包括用于开发Arena Explorer的英语人类偏好评价。此外,我们还提供了一个嵌入文件,其中包含了英语对话的预计算嵌入,这些嵌入用于主题建模管道以对这些对话进行分类和分析。

hugging_face 收录

CWD30

CWD30包含超过219,770张20种杂草和10种作物的高分辨率图像,涵盖了不同的生长阶段、多个观察角度和环境条件。这些图像是从不同地理位置和季节的多样化农业领域收集的,确保了数据集的代表性。

github 收录