reddit-conversation

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/chiron-group/reddit-conversation

下载链接

链接失效反馈

官方服务：

资源简介：

Chiron-Reddit-Conversation数据集将Reddit对话轨迹重新打包为Chiron的测量-预测模式。每条数据代表一位Reddit用户，其中观察部分包含该用户的历史评论，预测任务则提供一个当前对话上下文，要求模型生成用户实际的下一条评论。数据集默认来源为ConvoKit的ChangeMyView winning-args语料库，作为Reddit对话任务的本地替代。数据集规模介于10K到100K之间，包含训练集、验证集和测试集。每个数据单元包含用户的评论（约70%作为观察）、预测任务（约20%转换为下一条评论生成任务）和保留预测任务（约10%用于用户内评估）。数据集适用于对话生成、用户建模等任务，并使用ROUGE-L F1进行评分。数据来源和分发需遵循上游数据集和Reddit的使用条款。

The Chiron-Reddit-Conversation dataset repackages Reddit conversation trajectories into Chirons measure-predict schema. Each data point represents a Reddit user, where the observation part contains the users historical comments, and the prediction task provides a current conversation context, requiring the model to generate the users actual next comment. The dataset defaults to the ConvoKit ChangeMyView winning-args corpus as a local alternative for Reddit conversation tasks. The dataset size ranges between 10K to 100K, including training, validation, and test sets. Each data unit contains user comments (approximately 70% as observations), prediction tasks (approximately 20% converted to next-comment generation tasks), and held-out prediction tasks (approximately 10% for within-user evaluation). The dataset is suitable for tasks such as dialogue generation and user modeling, and uses ROUGE-L F1 for scoring. Data sourcing and distribution must comply with the terms of use of the upstream dataset and Reddit.

创建时间：

2026-05-05

原始信息汇总

数据集概述：Chiron Reddit Conversation

数据集名称：Chiron Reddit Conversation
语言：英语
许可：其他（遵循上游数据集和 Reddit 服务条款）
数据集大小：10,000 < 样本数 < 100,000
标签：Reddit、对话、生成、用户建模、ROUGE-L
数据获取地址：https://huggingface.co/datasets/chiron-group/reddit-conversation

数据集描述

该数据集将 Reddit 对话记录重新打包为 Chiron 的测量-预测模式。每一行代表一个 Reddit 用户，观测值为用户的历史评论，预测任务提供当前对话上下文，要求模型生成用户实际的下一条评论。

默认来源是 ConvoKit 的 ChangeMyView winning-args 语料库，它是 CVABench 中描述的 Reddit 对话式话语任务的本地替代品。

文件结构

文件/目录	说明
`raw/winning-args-corpus.zip`	上游 ConvoKit 源存档
`qa/train-*-.parquet`	生成的 Chiron QA 训练集
`qa/val-*-.parquet`	验证集
`qa/test-*-.parquet`	测试集
`qa_jsonl/train.jsonl` 等	可选的 JSONL 格式反向转储
`scripts/build_qa.py`	从 ConvoKit zip 生成 QA Parquet 文件
`scripts/parquet_to_jsonl.py`	将 Parquet 转换为 JSONL

数据拆分与结构

拆分单元为 Reddit 用户，同一用户的评论不会跨训练/验证/测试集。

训练集字段

字段	类型	说明
`observations`	`list[str]`	用户约 70% 的评论，包含帖子标题和评论文本
`predictions`	`list[{question, ground_truth}]`	约 20% 的评论转换为下一条评论生成任务
`held_out_predictions`	`list[{question, ground_truth}]`	剩下的约 10%，保留用于用户内部评估
`data_source`	`str`	始终为 `"reddit_conversation"`
`split`	`str`	始终为 `"train"`
`extra_info`	`struct`	包含 `user_id_hash`、`subreddit`、`n_comments`、`n_observations`、`prediction_comment_ids`、`n_predictions`、`n_held_out_predictions`、`held_out_comment_ids`

验证集与测试集字段

与训练集相同，但 held_out_predictions 已合并到 predictions 中，省略了 held_out_predictions 字段。

预测格式

问题：提供 Reddit 对话上下文的模板，包含帖子标题、原始帖子以及对话路径，要求生成用户实际写的下一条回复。
真实答案：用户实际的 Reddit 评论文本。

运行时提示将监督生成目标包装在 <comment></comment> 标签中。进化评分使用确定性 ROUGE-L F1 值与真实评论文本进行比较。

生成策略

关键常量定义在 scripts/build_qa.py 中：

参数	值
随机种子	42
最少评论数	5
最大用户数	10,000
每个用户最大评论数	80
训练/验证/测试比例	0.90 / 0.05 / 0.05
观测比例	0.70
预测比例	0.20
最少预测数	1
最少保留预测数	1

流程：加载 ConvoKit 话语 → 删除已删除/机器人用户 → 保留评论数 ≥ MIN_COMMENTS 的用户 → 按稳定加盐哈希排序 → 保留最多 MAX_USERS → 按时间戳排序用户评论 → 可选下采样至 MAX_COMMENTS_PER_USER → 切分为观测、预测和保留任务。

用户 ID 仅以加盐哈希形式存储在 extra_info.user_id_hash 中，评论 ID 保存在 extra_info.*_comment_ids 中，便于追溯源数据。

来源与许可

来源为 ConvoKit ChangeMyView winning-args 语料库，衍生自 Reddit 数据。使用和重新分发必须遵循上游数据集和 Reddit 服务条款。本仓库中的脚本仅作为处理代码发布，对话内容受上游条款约束。

搜集汇总

数据集介绍

构建方式

该数据集重新封装了Reddit对话轨迹，遵循Chiron的测量-预测模式。每一行代表一位Reddit用户，观察值是该用户过往的评论，预测任务则提供当前对话上下文，要求模型生成用户实际的下一条评论。原始数据源于ConvoKit的ChangeMyView最佳论证语料库，通过脚本对ConvoKit话语进行加载，剔除被删除或机器人的用户，保留至少5条评论的用户，基于稳定哈希排序后最多选取10000名用户。每位用户的评论按时间戳排序，可选下采样至80条，再按7:2:1的比例切分为观察值、预测值及保留预测值。

特点

数据集以用户为分割单元，确保同一用户的评论不会跨训练、验证与测试集，从而支持用户建模的评估。每条预测任务提供结构化的对话上下文，要求模型生成包裹在<comment></comment>标签内的纯文本回复。评分采用确定的ROUGE-L F1值衡量生成结果与标准答案的语义相似度。用户ID仅以加盐哈希形式存储于辅助信息中，评论ID亦被保留以便溯源，兼顾隐私保护与可复现性。

使用方法

使用者可通过安装pyarrow库，运行构建脚本`scripts/build_qa.py`下载并生成Parquet格式的问答数据。默认参数支持调节最大用户数、压缩方式等。脚本将原始压缩包转换为训练、验证和测试三个分片。需使用时，可借助`parquet_to_jsonl.py`将Parquet逆向转存为JSONL格式，便于不同框架的加载。数据集的源代码仅作为处理流程发布，其内容的使用与再分发须遵循上游Reddit数据及ConvoKit语料库的许可条款。

背景与挑战

背景概述

在对话生成与用户建模领域，如何基于用户历史行为精准预测其在特定对话情境下的回应，一直是核心研究难题。为此，Chiron Reddit Conversation数据集于近年应运而生，由研究团队以ConvoKit平台上的ChangeMyView子论坛的获胜论据语料库为蓝本精心构建。该数据集深度聚焦于红迪社区中用户的对话模式，将每位用户的历史评论作为观测，并设计“下一评论生成”任务，要求模型依据当前对话上下文复现用户的实际回复。其独特之处在于严格按用户划分训练、验证与测试集，确保评估的公平性。该数据集为评估生成模型的用户一致性提供了标准化基准，尤其是通过ROUGE-L指标量化生成内容与真实回复的语义吻合度，在用户建模、个性化对话系统及可解释人工智能等领域产生了重要影响。

当前挑战

该数据集所解决的领域挑战在于：给定稀疏且噪声密集的在线社区对话历史，模型需捕捉用户个体特有的语言风格、论证逻辑及社交互动模式，并生成与之匹配的回应，这远超传统文本生成任务对语义正确性的要求。在构建过程中，团队面临多重技术难题。首先，如何从海量红迪数据中筛选出高质量对话轨迹，需剔除被删除账号及机器人的发言，同时确保每位用户拥有足够多的评论（至少5条）以形成有效画像。其次，为防止长尾用户分布导致数据倾斜，他们通过稳定哈希排序与数量上限（最多1万用户，每人最多80条评论）实现平衡分割。此外，将用户评论切分为观测、预测与保留集时，需严格遵循时间顺序以避免未来信息泄露，并确保每个用户均有至少一个预测任务。最终，所有用户ID经加盐哈希处理以保护隐私，同时保留评论ID以供溯源验证，这些设计共同构成了一项精密的数据工程挑战。

常用场景

经典使用场景

在对话生成与用户建模领域，Reddit-conversation数据集凭借其精心设计的测量-预测架构，成为评估模型从历史评论中捕捉用户个性化语言风格能力的经典基准。该数据集以每位Reddit用户为独立单元，将用户过往评论作为观察序列，并基于当前对话上下文要求模型生成用户真实的下一条回复。这种任务设计不仅考验模型对长程对话依赖关系的理解，更致力于探究如何从稀疏且嘈杂的社交媒体语料中提取稳定的用户行为模式，为个性化对话系统的研究提供了标准化的实验平台。

解决学术问题

该数据集主要解决了社交媒体场景下用户建模与个性化回复生成的学术挑战。传统对话系统往往忽视说话者个体差异，而Reddit-conversation通过严格划分用户级别的训练、验证与测试集，确保模型学到的模式是真正个体化的而非论题相关的。它聚焦于评估模型在给定有限历史评论时，能否准确还原特定用户在某个讨论串中的真实回应，从而推动学术界从‘通用对话’转向‘用户专属对话’的研究范式。这一设计有效揭示了模型在迁移学习、少样本个性化及长尾用户刻画方面的局限性，对理解语言生成中的身份一致性具有重要理论意义。

衍生相关工作

围绕Reddit-conversation数据集，学术界催生了一系列衍生的经典工作。最直接的当属CVABench基准测试，它将该数据集的任务定义与Pushshift Reddit对话追踪相结合，构建了跨平台的对话生成评估框架。研究者们进一步开发了基于检索增强的生成模型，通过动态从用户历史评论库中提取相关范例，提升了个性化回复的忠实度。同时，该数据集也启发了对用户表示学习的深入研究，例如利用对比学习预训练用户嵌入向量，使得仅凭少量评论即可迁移至新用户的对话生成任务，这些工作共同推动了用户建模从静态配置向动态适配的演进。

以上内容由遇见数据集搜集并总结生成