allenai/WildChat|对话系统数据集|自然语言处理数据集
收藏WildChat 数据集概述
数据集描述
- 数据集名称: WildChat
- 数据集大小: 650K 对话
- 语言: 多语言(66种语言)
- 数据来源: 用户与ChatGPT的交互
- 数据收集方式: 通过提供用户免费访问OpenAI的GPT-3.5和GPT-4
- 数据集用途: 指令微调、用户行为研究
- 数据集特点: 包含模糊请求、代码切换、话题切换、政治讨论等多样化的用户-聊天机器人交互
- 数据集版本: 包含有毒和非有毒子集
数据字段
- conversation_id: 每个对话的唯一ID(字符串)
- model: 使用的OpenAI模型(字符串)
- timestamp: 对话中最后一轮的时间戳(UTC时间)
- conversation: 用户/助手发言列表,包含发言内容、语言、是否有毒、是否匿名化等信息
- turn: 对话轮数(整数)
- language: 对话的主要语言(字符串)
- openai_moderation: OpenAI内容审核结果列表
- detoxify_moderation: Detoxify内容审核结果列表
- toxic: 对话是否包含任何被认为有毒的发言(布尔值)
- redacted: 对话是否包含任何被匿名化的发言(布尔值)
数据集分割
- train: 包含622,024个样本,总大小为3.72GB
数据集版本更新
- 2024-06-26: 许可证更新为ODC-BY
引用信息
@inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }

围岩和掘进工况识别建模数据集
围岩和掘进工况识别建模数据集以操作参数掘进优化决策建模数据集为基础,结合地质勘探信息和围岩台账,基于关键特征进行数据转换融合,选取能反映开挖围岩困难,可作为TBM的开挖负荷的刀盘扭矩和总推进力;选取能表明不同围岩下TBM开挖效率的掘进速度和刀盘转速;以桩号为基准确定各掘进循环的围岩岩性,构成数据集特征空间。
国家基础学科公共科学数据中心 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
TUT dataset
TUT数据集用于结构裂缝分割模型CrackSCF的训练和测试。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录