tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集
收藏数据集概述
数据集名称
Falcon RefinedWeb
数据集描述
Falcon RefinedWeb 是一个大规模的英语网络数据集,用于预训练大型语言模型。该数据集基于 CommonCrawl,通过严格的过滤和大规模的去重处理构建而成。
数据集特征
- content: 字符串类型,网页中处理和清洗后的文本内容。
- url: 字符串类型,爬取网页的URL。
- timestamp: 时间戳类型,网页被 CommonCrawl 爬取的时间。
- dump: 字符串类型,样本所属的 CommonCrawl 转储文件。
- segment: 字符串类型,样本所属的 CommonCrawl 段。
- image_urls: 序列类型,包含图片URL和图片替代文本的列表。
数据集大小
- 训练集大小: 2766953721769 字节,968000015 个样本。
- 下载大小: 466888198663 字节。
- 数据集总大小: 2766953721769 字节。
许可信息
数据集遵循 ODC-By 1.0 许可。
语言
数据集主要包含英语。
数据集结构
- 数据实例: 每个实例对应一个经过爬取、处理和去重后的网页。
- 数据字段: 如上所述的特征。
- 数据分割: 数据集未提供标准分割。
数据集创建
- 来源数据: 基于 CommonCrawl 转储文件。
- 数据收集和预处理: 应用了广泛的预处理和清洗,包括URL过滤、内容提取、语言识别和去重。
- 注释: 提供自动收集的注释,包括URL、爬取时间戳、原始转储和段信息,以及网页中的图片URL。
使用数据集的注意事项
- 社会影响: 旨在提高高质量网络数据的可用性,促进高性能大型语言模型的普及。
- 偏见讨论: 数据集可能包含网络上的有毒或偏见内容。
- 其他已知限制: 尽管进行了过滤和去重,仍可能存在错误或重复的文档。
附加信息
- 许可信息: 数据集遵循 ODC-By 1.0 许可,用户应遵守 CommonCrawl 的使用条款。
- 引用信息: 提供了详细的引用信息。
- 退出请求: 数据集基于 CommonCrawl,支持通过
robots.txt
进行退出请求。

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录