five

LMSYS-Chat-1M|语言模型数据集|对话数据数据集

收藏
arXiv2024-03-11 更新2024-06-21 收录
语言模型
对话数据
下载链接:
https://huggingface.co/datasets/lmsys/lmsys-chat-1m
下载链接
链接失效反馈
资源简介:
LMSYS-Chat-1M是由加州大学伯克利分校的研究团队创建的大型语言模型对话数据集,包含一百万条真实世界的对话记录。该数据集通过LMSYS项目收集,涵盖了25个最先进的语言模型,并从210,000个独特的IP地址中收集。数据集内容丰富,包括对话的收集过程、基本统计数据和主题分布,强调了其多样性、原创性和规模。该数据集的应用领域广泛,包括开发内容审核模型、构建安全基准、训练指令遵循模型以及创建挑战性基准问题,旨在理解和推进大型语言模型的能力。
提供机构:
加州大学伯克利分校
创建时间:
2023-09-21
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录