REALM

Hugging Face2024-12-18 更新2024-12-19 收录

下载链接：

https://huggingface.co/datasets/kkChimmy/REALM

下载链接

链接失效反馈

官方服务：

资源简介：

REALM数据集是一个用于研究大型语言模型（LLMs）在现实世界中应用的集合，包含超过73,000个从Reddit帖子和新闻文章中收集的用例，时间跨度从2020年6月到2024年6月。数据集主要关注LLMs的应用分类和用户职业属性，分别基于AI使用分类法和O*NET分类系统。数据字段包括源、作者、标题、描述、URL、发布时间、内容、分类、ID、子版块、分数、评论数、创建时间、顶级评论等。

创建时间：

2024-12-16

原始信息汇总

REALM 数据集

数据集描述

数据集名称: REALM
许可证: MIT
语言: 英语
联系人: Jingwen (chengjw21@gmail.com)

数据集概述

REALM 数据集是一个包含超过 73,000 个用例的集合，这些用例来自 Reddit 帖子和新闻文章，时间跨度为 2020 年 6 月（GPT 首次发布）至 2024 年 6 月。该数据集专注于两个关键方面：

LLM 的使用方式: 根据 AI Use Taxonomy: A Human-Centered Approach 对广泛的应用进行分类。
使用者: 提取当前或潜在终端用户的职业属性，基于 O*NET 分类系统进行分类。

数据字段

source (string): 来源
author (string): 作者
title (string): 标题
description (string): 描述
url (string): URL
urlToImage (string): 图片 URL
publishedAt (string): 发布时间
content (string): 内容
category_nist (string): NIST 分类
category (string): 分类
id (string): ID
subreddit (string): 子 Reddit
score (int64): 分数
num_comments (int64): 评论数量
created_time (timestamp[ns]): 创建时间
top_comments (string): 热门评论

数据集划分

训练集:
- 样本数量: 73,768
- 数据大小: 512,940,896 字节

数据集大小

下载大小: 287,521,790 字节
数据集大小: 512,940,896 字节

引用信息

请在使用此数据集时引用相关论文。

搜集汇总

数据集介绍

构建方式

REALM数据集的构建基于对Reddit帖子与新闻文章的广泛收集，涵盖了从2020年6月至2024年6月的时间段。该数据集通过分类大型语言模型（LLMs）的实际应用场景，以及提取潜在用户的职业属性，来深入探讨LLMs在现实世界中的应用。具体而言，数据集采用了[AI Use Taxonomy: A Human-Centered Approach](https://www.nist.gov/publications/ai-use-taxonomy-human-centered-approach)进行应用分类，并依据[O*NET classification system](https://www.onetcenter.org/)对用户职业进行分类，从而确保数据的多样性和实用性。

特点

REALM数据集的显著特点在于其广泛的应用场景覆盖和用户职业属性的详细分类。数据集包含了超过73,000个使用案例，涵盖了从GPT模型发布以来的四年间，LLMs在各行各业中的实际应用。此外，数据集通过AI Use Taxonomy和O*NET分类系统，提供了对LLMs应用的细致分类和用户职业的精准描述，使得研究者能够深入分析LLMs在不同领域和职业中的影响与应用模式。

使用方法

REALM数据集适用于多种研究场景，包括但不限于LLMs的应用分析、用户行为研究以及职业与技术交叉领域的探索。研究者可以通过数据集中的分类信息，分析LLMs在不同行业中的应用趋势，或探讨特定职业群体对LLMs的接受度和使用模式。此外，数据集的结构化数据格式和详细的字段信息，使得数据处理和分析变得高效且直观，为研究提供了坚实的基础。

背景与挑战

背景概述

随着大型语言模型（LLMs）如GPT的广泛应用，其在各行各业中的实际应用场景和影响逐渐成为研究焦点。REALM数据集应运而生，旨在深入探讨LLMs在现实世界中的应用情况。该数据集由主要研究人员Jingwen Cheng创建，涵盖了从2020年6月至2024年6月期间，从Reddit帖子与新闻文章中收集的超过73,000个使用案例。REALM数据集不仅关注LLMs的应用类别，还通过AI使用分类法和O*NET职业分类系统，分析了使用者的职业属性，为理解LLMs的社会影响提供了丰富的数据支持。

当前挑战

REALM数据集在构建过程中面临多项挑战。首先，从Reddit和新闻文章中提取高质量的使用案例需要复杂的文本处理和分类技术。其次，如何准确分类LLMs的应用场景，尤其是在多样化的实际应用中，是一个技术难题。此外，提取和分类使用者的职业属性也涉及复杂的自然语言处理和数据清洗工作。这些挑战不仅影响了数据集的构建效率，也对后续的数据分析和模型训练提出了更高的要求。

常用场景

经典使用场景

REALM数据集的经典使用场景主要集中在大型语言模型（LLMs）的实际应用分析上。通过该数据集，研究者和开发者能够深入探索GPT等模型在不同领域的应用情况，如新闻生成、社交媒体分析、职业场景中的自动化任务等。数据集的分类体系基于AI使用分类法和O*NET职业分类系统，使得研究者能够系统性地分析LLMs在不同职业和行业中的应用模式。

解决学术问题

REALM数据集解决了大型语言模型在实际应用中的分类和分析问题。通过提供详细的分类和职业属性信息，该数据集帮助学术界更好地理解LLMs在不同行业和职业中的应用范围和影响。这不仅有助于模型优化和改进，还为政策制定者提供了关于AI技术社会影响的实证数据，推动了AI伦理和政策研究的深入。

衍生相关工作

REALM数据集的发布激发了大量相关研究工作，特别是在AI应用分类和职业影响分析领域。例如，有研究者基于该数据集开发了新的AI应用推荐算法，能够根据用户的职业背景和需求推荐最合适的AI工具。此外，还有学者利用REALM数据集进行跨行业比较研究，分析不同行业对LLMs的接受度和应用深度，为行业间的技术转移提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集