allenai/WildChat|对话系统数据集|自然语言处理数据集
收藏WildChat 数据集概述
数据集描述
- 数据集名称: WildChat
- 数据集大小: 650K 对话
- 语言: 多语言(66种语言)
- 数据来源: 用户与ChatGPT的交互
- 数据收集方式: 通过提供用户免费访问OpenAI的GPT-3.5和GPT-4
- 数据集用途: 指令微调、用户行为研究
- 数据集特点: 包含模糊请求、代码切换、话题切换、政治讨论等多样化的用户-聊天机器人交互
- 数据集版本: 包含有毒和非有毒子集
数据字段
- conversation_id: 每个对话的唯一ID(字符串)
- model: 使用的OpenAI模型(字符串)
- timestamp: 对话中最后一轮的时间戳(UTC时间)
- conversation: 用户/助手发言列表,包含发言内容、语言、是否有毒、是否匿名化等信息
- turn: 对话轮数(整数)
- language: 对话的主要语言(字符串)
- openai_moderation: OpenAI内容审核结果列表
- detoxify_moderation: Detoxify内容审核结果列表
- toxic: 对话是否包含任何被认为有毒的发言(布尔值)
- redacted: 对话是否包含任何被匿名化的发言(布尔值)
数据集分割
- train: 包含622,024个样本,总大小为3.72GB
数据集版本更新
- 2024-06-26: 许可证更新为ODC-BY
引用信息
@inproceedings{ zhao2024wildchat, title={WildChat: 1M Chat{GPT} Interaction Logs in the Wild}, author={Wenting Zhao and Xiang Ren and Jack Hessel and Claire Cardie and Yejin Choi and Yuntian Deng}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=Bl8u7ZRlbM} }

中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
开源PHM数据集
本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。
github 收录
FRED (Federal Reserve Economic Data)
FRED(Federal Reserve Economic Data)是一个由美国联邦储备银行圣路易斯分行维护的经济数据库,提供超过80万种经济指标数据,包括国内生产总值(GDP)、失业率、通货膨胀率、利率等。数据涵盖了美国和国际的经济、金融和社会指标,时间跨度从1776年至今。
fred.stlouisfed.org 收录
RADIOML 2016.10A
一个合成数据集,使用GNU Radio生成,包含11种调制方式(8种数字和3种模拟),信号噪声比各异。该数据集首次在第六届年度GNU Radio会议上发布。
github 收录
TCIA: The Cancer Imaging Archive
TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。
www.cancerimagingarchive.net 收录