ZhankuiHe/reddit_movie_raw
收藏数据集卡片 Reddit-Movie-raw
数据集描述
数据集概述
该数据集提供了与电影推荐对话相关的Reddit原始文本。数据集是从pushshift.io的数据转储中提取的,仅用于研究目的。
免责声明
⚠️ 请注意,从Reddit原始数据处理得到的对话可能包含不利于积极体验的内容(例如,有毒言论)。在使用这些信息时请谨慎并自行判断。
文件夹结构
数据集的文件夹结构如下:
bash reddit_movie_raw ├── IMDB-database │ ├── clean.py # 用于获取干净IMDB电影标题的脚本,如果需要可以用于电影名称匹配。 │ ├── movie_clean.tsv # 电影标题清理后的结果 │ ├── title.basics.tsv # 来自IMDB的原始电影标题信息 │ └── title.ratings.tsv # 来自IMDB的原始电影标题和评分信息 ├── Reddit-Movie-large │ ├── sentences.jsonl # 来自subreddit/*数据的原始句子,可用于后续处理 │ └── subreddit # 从2012年1月至2022年12月的不同subreddits的原始文本(大) │ ├── bestofnetflix.jsonl │ ├── movies.jsonl │ ├── moviesuggestions.jsonl │ ├── netflixbestof.jsonl │ └── truefilm.jsonl └── Reddit-Movie-small ├── sentences.jsonl # 来自subreddit/*数据的原始句子,可用于后续处理 └── subreddit # 从2022年1月至2022年12月的不同subreddits的原始文本(小) ├── bestofnetflix.jsonl ├── movies.jsonl ├── moviesuggestions.jsonl ├── netflixbestof.jsonl └── truefilm.jsonl
数据处理
我们还提供了第一版处理的Reddit-Movie数据集,分别为Reddit-Movie-small-V1和Reddit-Movie-large-V1。欢迎加入我们以提高处理质量!
引用信息
如果您使用了这些原始数据,请引用以下两篇论文,谢谢!
bib @inproceedings{baumgartner2020pushshift, title={The pushshift reddit dataset}, author={Baumgartner, Jason and Zannettou, Savvas and Keegan, Brian and Squire, Megan and Blackburn, Jeremy}, booktitle={Proceedings of the international AAAI conference on web and social media}, volume={14}, pages={830--839}, year={2020} }
bib @inproceedings{he23large, title = Large language models as zero-shot conversational recommenders", author = "Zhankui He and Zhouhang Xie and Rahul Jha and Harald Steck and Dawen Liang and Yesu Feng and Bodhisattwa Majumder and Nathan Kallus and Julian McAuley", year = "2023", booktitle = "CIKM" }




