dogwhistle_dataset|自然语言处理数据集|深度学习数据集
收藏
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
中国近海地形数据集(渤海,黄海,东海,南海)
本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。
地球大数据科学工程 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
Paper III (Walker et al. 2024)
Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.
DataCite Commons 收录
