five

ZhankuiHe/reddit_movie_large_v1

收藏
Hugging Face2023-08-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZhankuiHe/reddit_movie_large_v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含与电影推荐相关的对话,适用于对话推荐和长查询检索等研究任务。数据集的时间跨度为2012年1月至2022年12月,涵盖了五个Reddit子论坛的对话。数据处理包括从Reddit提取对话、识别电影提及并将其链接到IMDB数据库中的电影实体。数据集的结构包括数据字段、数据分割和引用信息。

This dataset contains the recommendation-related conversations in the movie domain, primarily for research use in conversational recommendation and long-query retrieval tasks. The dataset spans from January 2012 to December 2022 and mentions a smaller version of the dataset. The processing involves extracting conversations from Reddit, recognizing movie mentions, and linking these mentions to movie entities in the IMDB database.
提供机构:
ZhankuiHe
原始信息汇总

数据集卡片 Reddit-Movie-large-V1

数据集描述

数据集概述

该数据集包含电影领域的推荐相关对话,仅用于研究目的,例如对话推荐、长查询检索任务。数据集时间范围从2012年1月至2022年12月。另一个较小版本的数据集(从2022年1月至2022年12月)可以在这里找到。

数据集处理

我们从pushshift.io导出Reddit的对话,并将其转换为关于电影推荐的原始文本,涉及五个子版块:

处理步骤包括:

  1. 提取电影推荐对话;
  2. 识别原始文本中的电影提及;
  3. 将电影提及链接到IMDB数据库中的现有电影实体。

由于原始文本较为嘈杂且处理不完美,我们观察到一些处理失败的情况。因此,我们使用V1来强调这是处理后的第一个版本。欢迎未来贡献更清洁的处理版本(如V2),非常感谢!

免责声明

⚠️ 请注意,从Reddit原始数据处理的对话可能包含不利于积极体验的内容(例如,有毒言论)。在使用这些信息时请谨慎和慎重。

数据集结构

数据字段

  • id2name.json 提供了一个从itemid(例如,tt0053779)到itemname(例如,La Dolce Vita (1960))的查找表(字典)。注意,itemid来自IMDB,因此可以用于与其他共享相同itemid的电影推荐数据集对齐,例如MovieLens
  • {train, valid, test}.csv 是用于训练、验证和测试的问答对(按对话创建时间戳的先后顺序划分,从远到近)。这些*.csv文件有12列:
    • conv_id (string): 对话ID。例如:

      "t3_rt7enj_0/14" # -> t3_rt7enj 是线程中第一个帖子的ID,0 表示这是从该线程中提取的第一个路径,13 表示总共有13个路径。

    • turn_id (string): 对话轮次ID。例如:

      "t3_rt7enj" # -> 我们可以使用 (conv_id, turn_id) 唯一地定义数据集中的行。

    • turn_order (int64): 给定对话中的第X轮,可用于在对话中排序轮次。例如:

      0 # -> 这是该对话的第一轮。通常,来自Reddit的对话的轮次数量通常不大。

    • user_id (string): 唯一用户ID。例如:

      "t2_fweij" # -> 用户ID

    • is_seeker (bool): 当前轮次的说话者是否是寻求推荐的人。例如:

      true # -> 这是寻求推荐的人(在Reddit上发起电影请求对话的人)。

    • utc_time (int64): 该对话轮次发生的UTC时间戳。例如:

      1641234238 # -> 尝试 datetime.fromtimestamp(1641234238)

    • upvotes (int64): 其他Reddit用户的上投票数(如果该帖子是线程中的第一个帖子,则为null,因为上投票仅适用于回复)。例如:

      6 # -> 其他Reddit用户的6个上投票。

    • processed (string): 该对话轮次的角色和文本(处理版本)。例如:

      "[USER, We decided on tt3501632. They love it so far— very funny!]" # -> [角色, 处理后的字符串] 在 eval() 之后,我们可以使用 id2name.json 匹配 tt3501632 到实际项目名称。

    • raw (int64): 该对话轮次的角色和文本(原始文本版本)。例如:

      "[USER, We decided on Thor: Ragnarok. They love it so far— very funny!]" # -> [角色, 原始字符串] 在 eval() 之后,方便形成 "USER: We decided on Thor: Ragnarok. They love it so far— very funny!"。

    • context_processed (string): 历史对话上下文的角色和文本对(处理版本)。例如:

      "[[USER, It’s summer break ... Some of the films we have watched (and they enjoyed) in the past are tt3544112, tt1441952, tt1672078, tt0482571, tt0445590, tt0477348...], [SYSTEM, "Im not big on super hero movies, but even I loved the tt2015381 movies ..."]]"

      -> [[角色, 处理后的字符串], [角色, 处理后的字符串], ...] 在 eval() 之后,我们可以使用 id2name.json 匹配 tt****** 到实际项目名称。

    • context_raw (string): 历史对话上下文的角色和文本对(原始版本)。例如:

      "[[USER, It’s summer break ... Some of the films we have watched (and they enjoyed) in the past are Sing Street, Salmon Fishing in the Yemen, The Life of Pi, The Prestige, LOTR Trilogy, No Country for Old Men...], [SYSTEM, "Im not big on super hero movies, but even I loved the guardians of the Galaxy movies ..."]]"

      -> [[角色, 处理后的字符串], [角色, 处理后的字符串], ...] 在 eval() 之后,方便形成 "USER: ...

SYSTEM: ... USER:..."。

- `context_turn_ids (string)`: 与上下文 [角色, 处理后的字符串] 对关联的对话上下文轮次ID。例如:
    
    "[t3_8voapb, t1_e1p0f5h] # -> 这是上下文 [USER, It’s summer break ...], [SYSTEM, "Im not big on super hero movie..."] 的 `turn_id`。它们可以与 `conv_id` 结合使用以检索更多相关信息,如 `utc_time`。

数据分割

我们将最后20%的数据(按对话创建时间的先后顺序)作为测试集。其余的可以作为训练样本。我们提供了一个建议的分割,将训练集分为训练和验证,但您可以自由尝试您的分割。

总计 训练 + 验证 测试
#对话 634,392 570,955 63,437
#轮次 1,669,720 1,514,537 155,183
#用户 36,247 32,676 4,559
#项目 51,203 48,838 20,275

引用信息

如果您使用了此数据集,请引用以下两篇论文,谢谢!

bib @inproceedings{he23large, title = Large language models as zero-shot conversational recommenders", author = "Zhankui He and Zhouhang Xie and Rahul Jha and Harald Steck and Dawen Liang and Yesu Feng and Bodhisattwa Majumder and Nathan Kallus and Julian McAuley", year = "2023", booktitle = "CIKM" }

bib @inproceedings{baumgartner2020pushshift, title={The pushshift reddit dataset}, author={Baumgartner, Jason and Zannettou, Savvas and Keegan, Brian and Squire, Megan and Blackburn, Jeremy}, booktitle={Proceedings of the international AAAI conference on web and social media}, volume={14}, pages={830--839}, year={2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作