LawBERT-tw/LawBERT_data|法律文本分析数据集|法律知识图谱数据集
收藏数据集概述
数据集名称
LawBERT_data
数据集特征
- 名称: text
- 数据类型: string
数据集分割
- 名称: law
- 字节数: 67381624
- 示例数: 255683
- 名称: law_dict
- 字节数: 941705
- 示例数: 2608
- 名称: law_judgement
- 字节数: 767070585
- 示例数: 304981
- 名称: law_news
- 字节数: 1487522
- 示例数: 1838
- 名称: law_qa
- 字节数: 2908108
- 示例数: 4440
- 名称: law_rule
- 字节数: 74330814
- 示例数: 34741
数据集大小
- 下载大小: 37081540
- 数据集总大小: 914120358
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Awesome JSON Datasets
一个精选的无需认证的JSON数据集列表。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
koen430/relevant_selected_stock_news
该数据集包含通过GPT-3.5-turbo筛选出的新闻文章,旨在用于微调大型语言模型,以预测新闻发布后的股票价格变动。数据集包括多个特征,如股票代码、提示、文本、URL、结果、相关性、令牌计数等,并分为训练集、验证集和测试集。
hugging_face 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录