CASIA-LM/ChineseWebText|自然语言处理数据集|预训练数据集数据集
收藏ChineseWebText 数据集概述
数据集概览
- ChineseWebText 是一个最新且规模庞大的中文数据集,包含 1.42 TB 的数据。每条文本都分配了一个质量分数,便于大型语言模型(LLM)研究人员根据新的质量阈值选择数据。
- 此外,还发布了一个更干净的子集,包含 600 GB 的中文文本,质量超过 90%。
数据示例
json { "title": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10%_财经_中国网", "score": 0.95, "text": "潍坊银行2021年上半年净利润同比增长29.57% 不良率降至1.10% 中国网财经8月24日讯 潍坊银行昨日披露2021年二季度信息报告显示,截至2021年6月末,潍坊银行资产总额1920.44亿元,较上年末增长9.34%;负债总额1789.16亿元,较上年末增长10.54%。2021年上半年,潍坊银行实现净利润6.09亿元,同比增长29.57%。 资产质量方面,截至2021年6月末,潍坊银行不良贷款率1.10%,较上年末下降0.13个百分点。 资本金方面,截至2021年6月末,潍坊银行资本充足率、核心一级资本充足率、一级资本充足率分别为11.66%、7.89%、10.13%,分别较上年末下降1.89、0.89、1.15个百分点。", "url": "http://finance.china.com.cn/news/special/2021bnb/20210824/5638343.shtml", "source_domain": "finance.china.com.cn" }
- title: 【string】数据文本的标题。
- score: 【float】由质量评估模型生成的质量分数。
- text: 【string】数据样本的文本内容。
- url: 【string】指向文本原始网页地址的外部URL。
- source_domain: 【string】源网站的域名。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
ControlNet/WT-Data-Project
WT-DATA-PROJECT.DATA数据集包含了多个文件,主要涉及时间序列的战斗排名数据、Thunderskill数据、War Thunder Wiki数据以及这些数据的联合数据。时间序列数据包括不同国家的战斗评级、战斗次数、胜率等信息。Thunderskill数据提供了玩家在不同模式下的战斗统计数据。War Thunder Wiki数据则包含了游戏中各种载具的详细信息。联合数据则是将Thunderskill数据和War Thunder Wiki数据进行了整合,以便更好地利用两者的信息。
hugging_face 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
SDUST-Dataset
山东科技大学发布的用于故障诊断的SDUST数据集。
github 收录