AarushSah/lmsys-chat-1m|自然语言处理数据集|AI安全数据集
收藏数据集概述
基本信息
- 数据集名称: LMSYS-Chat-1M
- 数据集大小: 1M<n<10M
- 任务类别: conversational
- 数据集许可证: LMSYS-Chat-1M Dataset License Agreement
数据集内容
- 包含内容: 一百万个真实世界对话,涉及25个先进的LLMs。
- 收集来源: 从Vicuna demo和Chatbot Arena网站收集,覆盖210K独特IP地址。
- 收集时间: 2023年4月至8月。
- 数据结构:
- conversation_id: 字符串
- model: 字符串
- conversation:
- content: 字符串
- role: 字符串
- turn: 整数
- language: 字符串
- openai_moderation:
- categories: 结构体,包含多种分类的布尔值
- category_scores: 结构体,包含多种分类的浮点数
- flagged: 布尔值
- redacted: 布尔值
数据集统计
- 对话总数: 1,000,000
- 模型数量: 25
- 用户数量: 210,479
- 语言种类: 154
- 平均每样本轮数: 2.0
- 平均每提示令牌数: 69.5
- 平均每响应令牌数: 214.5
数据集使用
- 研究目的: 帮助AI研究社区解答关于真实世界用户提示的特征和分布、AI安全和内容审核、训练指令跟随模型、改进和评估LLM评估方法、模型选择和请求分发算法等重要问题。
- 许可证要求: 用户需同意LMSYS-Chat-1M Dataset License Agreement,该协议规定了数据集的使用条件,包括安全性和审核、非认可、法律遵从性、模型特定条款、非识别、禁止转移、删除请求权、终止条款和责任限制。
数据集重构
- 重构方法: 与OpaquePrompts团队合作,对数据集中的个人姓名进行重构,以保护用户隐私。
- 重构示例: 原始文本中的姓名如"Mary"和"James"将被替换为"NAME_1"和"NAME_2"。
- 重构影响: 可能影响数据质量,偶尔导致不正确的重构。
数据集下载和大小
- 下载大小: 1488850250字节
- 数据集大小: 2626438904字节
- 训练集大小: 2626438904字节,包含1,000,000个样本。
引用信息
@misc{zheng2023lmsyschat1m, title={LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset}, author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Tianle Li and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zhuohan Li and Zi Lin and Eric. P Xing and Joseph E. Gonzalez and Ion Stoica and Hao Zhang}, year={2023}, eprint={2309.11998}, archivePrefix={arXiv}, primaryClass={cs.CL} }

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
NASA Battery Dataset
用于预测电池健康状态的数据集,由NASA提供。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录