tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集
收藏数据集概述
数据集名称
Falcon RefinedWeb
数据集描述
Falcon RefinedWeb 是一个大规模的英语网络数据集,用于预训练大型语言模型。该数据集基于 CommonCrawl,通过严格的过滤和大规模的去重处理构建而成。
数据集特征
- content: 字符串类型,网页中处理和清洗后的文本内容。
- url: 字符串类型,爬取网页的URL。
- timestamp: 时间戳类型,网页被 CommonCrawl 爬取的时间。
- dump: 字符串类型,样本所属的 CommonCrawl 转储文件。
- segment: 字符串类型,样本所属的 CommonCrawl 段。
- image_urls: 序列类型,包含图片URL和图片替代文本的列表。
数据集大小
- 训练集大小: 2766953721769 字节,968000015 个样本。
- 下载大小: 466888198663 字节。
- 数据集总大小: 2766953721769 字节。
许可信息
数据集遵循 ODC-By 1.0 许可。
语言
数据集主要包含英语。
数据集结构
- 数据实例: 每个实例对应一个经过爬取、处理和去重后的网页。
- 数据字段: 如上所述的特征。
- 数据分割: 数据集未提供标准分割。
数据集创建
- 来源数据: 基于 CommonCrawl 转储文件。
- 数据收集和预处理: 应用了广泛的预处理和清洗,包括URL过滤、内容提取、语言识别和去重。
- 注释: 提供自动收集的注释,包括URL、爬取时间戳、原始转储和段信息,以及网页中的图片URL。
使用数据集的注意事项
- 社会影响: 旨在提高高质量网络数据的可用性,促进高性能大型语言模型的普及。
- 偏见讨论: 数据集可能包含网络上的有毒或偏见内容。
- 其他已知限制: 尽管进行了过滤和去重,仍可能存在错误或重复的文档。
附加信息
- 许可信息: 数据集遵循 ODC-By 1.0 许可,用户应遵守 CommonCrawl 的使用条款。
- 引用信息: 提供了详细的引用信息。
- 退出请求: 数据集基于 CommonCrawl,支持通过
robots.txt
进行退出请求。

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录