Acti|自动驾驶数据集|网络安全数据集
收藏Automotive-cyber-threat-intelligence-corpus
数据集概述
该数据集用于连接自动驾驶车辆的网络威胁情报建模。
实验环境
- NVIDIA GeForce RTX 3090 GPU
- Python 3.7
- CUDA 11.2
- PaddlePaddle-GPU 2.3.2
- paddlenlp 2.1.1
数据描述
- 原始数据: 非结构化的网络安全数据(.txt文件)
- Brat标注数据: 使用brat工具的标注数据文件(.ann文件)
- BIOES: "BIOES" - "实体类型" - "关系类型" - "实体角色" 联合标注数据(.txt文件)
源代码描述
- 格式转换: BIOES联合标注.py
- 预处理: read.py; preprocess.py
- 深度学习模型训练: BERT-BiLSTM-att-CRF; BiLSTM-dynamic-att-LSTM
Brat工具
- https://github.com/nlplab/brat/archive/refs/tags/v1.3p1.tar.gz

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
ner_training_stanza
该数据集包含文本数据及其相应的命名实体识别信息。文本被分词,并且命名实体识别信息既包括词级别也包括字符级别。数据集分为训练集、验证集和测试集,适用于进一步的自然语言处理任务。
huggingface 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
China Family Panel Studies (CFPS)
Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.
DataCite Commons 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
