PHOENIX-2014, PHOENIX-2014-T|手语识别数据集|机器学习数据集
收藏PHOENIX Datasets 概述
数据集介绍
PHOENIX-2014 和 PHOENIX-2014-T 是由德国亚琛工业大学的人类语言技术与模式识别组开发的大型德语手语数据集。本包为这两个数据集提供了一个 PyTorch 数据集包装器,以便于在 PyTorch 模型上使用这些数据集。
数据集功能
- 加载 PHOENIX-2014 的自动对齐
- 随机/均匀帧丢弃增强
- PHOENIX-2014 的评估
- 语言模型支持
数据集使用示例
数据集加载
python from phoenix_datasets import PhoenixVideoTextDataset from torch.utils.data import DataLoader
dtrain = PhoenixVideoTextDataset( root="data/phoenix-2014-multisigner", split="train", p_drop=0.5, random_drop=True, random_crop=True, base_size=[256, 256], crop_size=[224, 224], )
vocab = dtrain.vocab
dl = DataLoader(dtrain, collate_fn=dtrain.collate_fn)
for batch in dl: video = batch["video"] label = batch["label"] signer = batch["signer"]
print(len(video))
print(video[0].shape)
print(label[0].shape)
print(signer)
break
数据集评估
python from phoenix_datasets.evaluators import PhoenixEvaluator
evaluator = PhoenixEvaluator("data/phoenix-2014-multisigner") hyp = evaluator.corpus.load_data_frame("dev")["annotation"].apply(" ".join).tolist() hyp[0] = "THIS SENTENCE IS WRONG" results = evaluator.evaluate("dev", hyp) print(results["parsed_dtl"]) print(results["sum"])
待办事项
- 实现 PHOENIX-2014-T 的语料库和评估

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Awesome JSON Datasets
一个精选的无需认证的JSON数据集列表。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
Movies Dataset
这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。
github 收录