tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集
收藏数据集概述
数据集名称
Falcon RefinedWeb
数据集描述
Falcon RefinedWeb 是一个大规模的英语网络数据集,用于预训练大型语言模型。该数据集基于 CommonCrawl,通过严格的过滤和大规模的去重处理构建而成。
数据集特征
- content: 字符串类型,网页中处理和清洗后的文本内容。
- url: 字符串类型,爬取网页的URL。
- timestamp: 时间戳类型,网页被 CommonCrawl 爬取的时间。
- dump: 字符串类型,样本所属的 CommonCrawl 转储文件。
- segment: 字符串类型,样本所属的 CommonCrawl 段。
- image_urls: 序列类型,包含图片URL和图片替代文本的列表。
数据集大小
- 训练集大小: 2766953721769 字节,968000015 个样本。
- 下载大小: 466888198663 字节。
- 数据集总大小: 2766953721769 字节。
许可信息
数据集遵循 ODC-By 1.0 许可。
语言
数据集主要包含英语。
数据集结构
- 数据实例: 每个实例对应一个经过爬取、处理和去重后的网页。
- 数据字段: 如上所述的特征。
- 数据分割: 数据集未提供标准分割。
数据集创建
- 来源数据: 基于 CommonCrawl 转储文件。
- 数据收集和预处理: 应用了广泛的预处理和清洗,包括URL过滤、内容提取、语言识别和去重。
- 注释: 提供自动收集的注释,包括URL、爬取时间戳、原始转储和段信息,以及网页中的图片URL。
使用数据集的注意事项
- 社会影响: 旨在提高高质量网络数据的可用性,促进高性能大型语言模型的普及。
- 偏见讨论: 数据集可能包含网络上的有毒或偏见内容。
- 其他已知限制: 尽管进行了过滤和去重,仍可能存在错误或重复的文档。
附加信息
- 许可信息: 数据集遵循 ODC-By 1.0 许可,用户应遵守 CommonCrawl 的使用条款。
- 引用信息: 提供了详细的引用信息。
- 退出请求: 数据集基于 CommonCrawl,支持通过
robots.txt进行退出请求。

Granary
Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。
arXiv 收录
Other-Animals-10
该数据集包含103张图像,每张图像对应一个动物标签,标签类别包括熊、蜜蜂、甲虫等34种动物。数据集仅包含一个训练集,用于训练模型。
huggingface 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
🌧️ Digital Typhoon Dataset WP (GIFs| 57GB)
🌧️ Digital Typhoon Dataset Western Pacific (Animated GIFs)
kaggle 收录
