five

REALM|大型语言模型数据集|社会影响数据集

收藏
arXiv2025-03-24 更新2025-03-26 收录
大型语言模型
社会影响
下载链接:
https://realm-e7682.web.app/
下载链接
链接失效反馈
资源简介:
REALM数据集是一个包含超过94,000个来自Reddit和新闻文章的大型语言模型(LLM)实际应用案例的数据集。该数据集由卡内基梅隆大学和加利福尼亚大学圣塔芭芭拉分校创建,涵盖了从2020年6月(GPT-3发布)到2024年12月的数据。数据集记录了LLM在不同领域的应用,旨在为分析LLM在社会中的演变角色提供基础。
提供机构:
卡内基梅隆大学, 加利福尼亚大学圣塔芭芭拉分校
创建时间:
2025-03-24
原始信息汇总

REALM 数据集概述

数据集基本信息

  • 全称:REALM (Real-World Application of Large Language Model Dataset)
  • 数据量:超过93,000个用例
  • 时间跨度:2020年6月(GPT首次发布)至2024年12月
  • 数据来源:Reddit帖子和新闻文章
  • 公开平台:Hugging Face

研究重点

  1. LLM使用方式
    • 应用范围分类,遵循《AI Use Taxonomy: A Human-Centered Approach》
  2. 使用者特征
    • 提取当前或潜在终端用户的职业属性
    • 分类基于O*NET分类系统

仪表盘功能

  • 时间范围:2024年9月至2024年12月
  • 核心功能
    • 表格形式展示新闻文章和Reddit帖子,支持搜索和筛选
    • 交互式图表提供LLM应用的统计洞察和趋势分析

示例数据

新闻文章

Reddit帖子

相关资源

AI搜集汇总
数据集介绍
main_image_url
构建方式
REALM数据集的构建采用了系统化的数据收集与处理流程,主要数据源包括Reddit平台和新闻文章。通过关键词提取技术从数十亿数据点中筛选出94,000条有效条目,其中包含15,000条Reddit帖子和79,000篇新闻文章。为确保数据质量,研究团队实施了严格的数据清洗步骤,包括去重、去除无效内容和停用词等。随后,利用微调的RoBERTa模型进行相关性过滤,并通过四阶段标注流程进一步精炼数据集,最终形成涵盖LLM应用类型和用户职业类别的结构化数据。
特点
REALM数据集的核心特点体现在其多维度的分类体系和真实世界数据的代表性。数据集创新性地整合了LLM应用分类法(基于人类目标与结果)和职业分类法(源自O*NET数据库),形成了包含15类LLM应用和14种职业类别的完整体系。特别值得注意的是,数据集捕捉了GPT-3发布后四年间(2020-2024)的应用演变轨迹,揭示了内容创作、决策支持等应用领域的快速增长趋势。其独特的价值在于同时记录了技术应用场景和用户职业背景,为研究LLM的社会影响提供了立体化的分析视角。
使用方法
该数据集支持多种研究范式,用户可通过官方提供的交互式仪表盘进行可视化探索,或通过API接口获取结构化数据进行分析。对于应用研究,学者可结合LLM应用分类分析特定领域的技术渗透模式;对于社会学研究,可通过职业维度考察不同群体的技术采纳差异。数据集特别适用于纵向趋势分析,其时间跨度允许研究者追踪技术演进的动态过程。使用时应关注数据源的固有偏差,建议采用交叉验证方法弥补Reddit用户偏向技术领域、新闻侧重商业报道的局限性。
背景与挑战
背景概述
REALM数据集由卡内基梅隆大学和加州大学圣巴巴拉分校的研究团队于2025年推出,旨在系统化研究大型语言模型(LLMs)在现实世界中的应用场景及其用户群体特征。该数据集收录了来自Reddit讨论和新闻文章的94,000余条用例,时间跨度为2020年6月(GPT-3发布)至2024年12月。通过整合LLM应用分类学与职业分类体系(O*NET),REALM首次实现了对LLM技术渗透率的多维度量化分析,为社会学、经济学和人机交互领域提供了关键实证基础。其创新性体现在将技术应用与职业特征关联,揭示了LLM在内容创作、决策支持等领域的差异化应用模式。
当前挑战
构建REALM面临的核心挑战体现在两个层面:领域问题层面,现有研究多依赖理论推演或简单关键词过滤,难以精准捕捉LLM应用的复杂性和动态性;数据构建层面,需解决多源异构数据(社交媒体非结构化文本与新闻专业内容)的语义对齐问题。具体挑战包括:1)高召回率与高精度的平衡——采用RoBERTa模型初筛后需人工验证确保数据质量;2)细粒度分类难题——LLM应用场景的模糊性导致15类用途分类的边界界定困难;3)职业映射偏差——技术倾向性平台(如Reddit)导致计算机相关职业样本过载,需通过抽样加权校正。这些挑战通过四阶段标注流水线和置信度机制得到部分缓解,但平台选择偏差仍是后续研究的改进方向。
常用场景
经典使用场景
在自然语言处理和社会计算领域,REALM数据集为研究者提供了一个独特的视角,用以探索大型语言模型(LLMs)在现实世界中的多样化应用。该数据集通过整合来自Reddit讨论和新闻文章的94,000多个用例,详细记录了从内容创作到决策支持等多种应用场景。特别是在内容创作和内容合成方面,REALM揭示了LLMs如何被广泛用于写作辅助、代码生成和信息整合,成为该数据集最经典的使用场景之一。
解决学术问题
REALM数据集通过系统化的分类和标注,解决了当前LLM研究中缺乏实证数据支持的问题。它不仅填补了关于LLM实际应用场景的知识空白,还通过链接使用案例与用户职业,为研究LLM对不同行业的影响提供了可靠的数据基础。这一数据集的建立,使得研究者能够更准确地评估LLM技术的社会经济影响,从而推动相关政策的制定和跨学科研究的开展。
衍生相关工作
REALM数据集的发布催生了一系列相关研究,尤其是在LLM的社会影响和职业适应性方面。例如,基于REALM的研究探讨了LLM在教育、医疗和金融等领域的潜在风险与收益。此外,该数据集还被用于开发新的评估框架,如Particip-AI,进一步扩展了LLM研究的深度和广度。这些衍生工作不仅验证了REALM的科学价值,也为未来研究提供了丰富的参考资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

鄱阳湖流域主要水文站实时日水位观测数据集(2017-2024年)

该数据集为鄱阳湖流域主要水文站的逐日实时水位数据集。包含了外洲站、李家渡站、湖口站、星子站、万家埠站、都昌等10个主要水文站的日水位数据,观测时间为每日8:00。共享政策为一次可共享3000条数据,一个站点的一日数据为一条记录,一年可申请一次。 数据集包含1个excel表格文件,日水位.xlsx。

国家地球系统科学数据中心 收录