CodeGen|代码生成数据集|自然语言处理数据集
收藏
- CodeGen数据集首次发表,由Salesforce Research团队发布,旨在支持代码生成和理解任务。
- CodeGen数据集首次应用于多个自然语言处理和代码生成竞赛中,展示了其在实际应用中的潜力。
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
riotu-lab/Synthetic-UAV-Flight-Trajectories
该数据集包含超过5000条随机无人机(UAV)轨迹,这些轨迹是在20小时的飞行时间内收集的,主要用于训练AI模型,如轨迹预测应用。数据集通过自动化管道生成和预处理无人机合成轨迹,使其可以直接用于AI模型训练。数据集的特点是参数化的轨迹,遵循预定义的模式,特别是圆形和无限路径。数据集的结构包括数据字段,如时间戳和无人机的3D位置(x, y, z坐标)。
hugging_face 收录
ShapeNet
ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。
OpenDataLab 收录
HUSTmotor-multi-modal-dataset
实验室自采多模态电机故障开源数据集,包含振动信号和音频信号。
github 收录