ZhankuiHe/reddit_movie_raw

Name: ZhankuiHe/reddit_movie_raw
Creator: ZhankuiHe
Published: 2023-08-19 03:53:31
License: 暂无描述

Hugging Face2023-08-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ZhankuiHe/reddit_movie_raw

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了从Reddit提取的与电影推荐对话相关的原始文本。数据集来源于pushshift.io的数据转储，并仅用于研究用途。数据集中包含IMDB数据库、Reddit-Movie-large和Reddit-Movie-small文件夹，分别存储了清理后的IMDB电影标题、原始电影标题信息、电影评分信息以及从不同Reddit子论坛提取的原始文本。

This dataset provides raw text extracted from Reddit that pertains to movie recommendation conversations. It is derived from data dumps hosted on pushshift.io and is exclusively intended for research use. The dataset comprises three folders: IMDB Database, Reddit-Movie-large, and Reddit-Movie-small, which respectively store cleaned IMDB movie titles, raw movie title information, movie rating data, and raw text extracted from various Reddit subreddits.

提供机构：

ZhankuiHe

原始信息汇总

数据集卡片 `Reddit-Movie-raw`

数据集描述

数据集概述

该数据集提供了与电影推荐对话相关的Reddit原始文本。数据集是从pushshift.io的数据转储中提取的，仅用于研究目的。

免责声明

⚠️ 请注意，从Reddit原始数据处理得到的对话可能包含不利于积极体验的内容（例如，有毒言论）。在使用这些信息时请谨慎并自行判断。

文件夹结构

数据集的文件夹结构如下：

bash reddit_movie_raw ├── IMDB-database │ ├── clean.py # 用于获取干净IMDB电影标题的脚本，如果需要可以用于电影名称匹配。 │ ├── movie_clean.tsv # 电影标题清理后的结果 │ ├── title.basics.tsv # 来自IMDB的原始电影标题信息 │ └── title.ratings.tsv # 来自IMDB的原始电影标题和评分信息 ├── Reddit-Movie-large │ ├── sentences.jsonl # 来自subreddit/*数据的原始句子，可用于后续处理 │ └── subreddit # 从2012年1月至2022年12月的不同subreddits的原始文本（大） │ ├── bestofnetflix.jsonl │ ├── movies.jsonl │ ├── moviesuggestions.jsonl │ ├── netflixbestof.jsonl │ └── truefilm.jsonl └── Reddit-Movie-small ├── sentences.jsonl # 来自subreddit/*数据的原始句子，可用于后续处理 └── subreddit # 从2022年1月至2022年12月的不同subreddits的原始文本（小） ├── bestofnetflix.jsonl ├── movies.jsonl ├── moviesuggestions.jsonl ├── netflixbestof.jsonl └── truefilm.jsonl

数据处理

我们还提供了第一版处理的Reddit-Movie数据集，分别为Reddit-Movie-small-V1和Reddit-Movie-large-V1。欢迎加入我们以提高处理质量！

引用信息

如果您使用了这些原始数据，请引用以下两篇论文，谢谢！

bib @inproceedings{baumgartner2020pushshift, title={The pushshift reddit dataset}, author={Baumgartner, Jason and Zannettou, Savvas and Keegan, Brian and Squire, Megan and Blackburn, Jeremy}, booktitle={Proceedings of the international AAAI conference on web and social media}, volume={14}, pages={830--839}, year={2020} }

bib @inproceedings{he23large, title = Large language models as zero-shot conversational recommenders", author = "Zhankui He and Zhouhang Xie and Rahul Jha and Harald Steck and Dawen Liang and Yesu Feng and Bodhisattwa Majumder and Nathan Kallus and Julian McAuley", year = "2023", booktitle = "CIKM" }

搜集汇总

数据集介绍

构建方式

在电影推荐系统研究领域，获取真实用户对话数据对于理解自然交互模式至关重要。Reddit-Movie-raw数据集通过系统化采集构建而成，其核心数据源自知名的社交媒体平台Reddit。研究者利用Pushshift Reddit数据集这一公开数据源，专门提取了与电影推荐主题相关的子论坛原始文本。数据覆盖了包括movies、moviesuggestions、truefilm在内的多个特定子版块，时间跨度从2012年1月至2022年12月，形成了大规模语料库。为确保数据的可用性，数据集还整合了来自IMDB的权威电影元数据，如标准化的电影片名和评分信息，为后续的实体链接与内容分析提供了坚实基础。整个构建过程侧重于保留原始对话的完整性与真实性，未进行深度清洗，以服务于各类研究需求。

特点

作为面向对话式推荐系统的研究资源，该数据集展现出鲜明的多维度特征。其内容完全由真实用户在开放社区中的自然对话构成，涵盖了请求推荐、电影讨论、观点分享等多种交互场景，具有高度的生态效度。数据集在结构上提供了“大规模”与“小规模”两个版本，分别对应十年期和一年期的数据范围，为不同计算资源的研究提供了灵活性。数据以JSON Lines格式存储，便于流式读取与处理。尤为重要的是，数据集完整保留了原始文本的未经修饰状态，包括可能存在的非正式表达或不适宜内容，这为研究社交媒体的语言真实性、内容安全过滤以及推荐系统的鲁棒性提供了独特视角。

使用方法

在应用层面，该数据集主要服务于对话推荐系统与自然语言处理的前沿探索。使用者可直接加载`sentences.jsonl`文件中的原始句子，或按子论坛分别处理对应的JSONL文件，以进行文本分析、对话结构挖掘或用户意图识别。数据集提供的IMDB元数据可用于电影实体识别与消歧，增强推荐结果的可解释性。研究者可基于此数据训练或评估能够理解复杂用户偏好、进行多轮对话的推荐模型。鉴于数据包含原始网络内容，在使用前必须实施严格的内容审查与过滤流程，以规避潜在风险。典型的工作流程包括数据加载、必要的安全清洗、特征提取，继而应用于模型训练或作为零样本评估的基准测试集。

背景与挑战

背景概述

在人工智能与推荐系统领域，对话式推荐系统逐渐成为研究热点，旨在通过自然语言交互理解用户偏好并提供个性化建议。Reddit-Movie-raw数据集由Zhankui He等人于2023年构建，依托加州大学圣地亚哥分校等机构的研究力量，核心研究问题聚焦于探索大型语言模型在零样本对话推荐任务中的潜力。该数据集从Reddit平台提取2012年至2022年间电影相关子论坛的原始文本，为研究社区提供了丰富的真实对话语料，显著推动了对话推荐系统的模型创新与评估基准的发展。

当前挑战

该数据集旨在解决对话式电影推荐领域的挑战，包括如何从非结构化、多轮对话中精准识别用户意图与电影实体，以及应对自然语言中存在的模糊表达与上下文依赖性。在构建过程中，研究人员面临数据质量控制的难题，例如Reddit原始文本包含大量噪声、无关内容甚至有害言论，需通过精细清洗确保语料可用性；同时，电影名称的匹配与标准化亦是一大挑战，需整合IMDB数据库以实现实体对齐，保障推荐结果的准确性。

常用场景

经典使用场景

在对话式推荐系统领域，Reddit-Movie-raw数据集为研究者提供了丰富的自然语言交互文本，这些文本源自Reddit平台上关于电影推荐的讨论。该数据集常被用于训练和评估基于大型语言模型的零样本对话推荐系统，通过模拟真实用户与系统之间的多轮对话，探索模型在理解用户偏好、生成个性化推荐方面的能力。其涵盖多个电影相关子版块，确保了数据多样性和场景真实性，为对话推荐算法的开发奠定了坚实基础。

衍生相关工作

围绕Reddit-Movie-raw数据集，已衍生出多项经典研究工作，其中最突出的是He等人于2023年发表的《Large Language Models as Zero-Shot Conversational Recommenders》。该工作利用此数据集验证了大型语言模型在零样本对话推荐任务中的有效性，开创了将预训练语言模型应用于推荐系统的新范式。后续研究在此基础上进一步探索了多模态推荐、跨领域迁移以及对话安全性增强等方向，持续推动着对话式人工智能的进步。

数据集最近研究