MiroBench

github2026-05-18 更新2026-05-19 收录

下载链接：

https://github.com/yyu6/MiroBench

下载链接

链接失效反馈

官方服务：

资源简介：

MiroBench是一个用于评估LLM生成的在线讨论线程是否与真实Reddit讨论模式匹配的基准测试数据集。它提供5个产品领域的真实Reddit讨论线程，包括信用卡、相机、手机、耳机和笔记本电脑，每个领域包含数百个真实线程和产品描述，并涵盖9个评分家族的57个细粒度指标，如词汇多样性、语义相似性、毒性、情感、礼貌性、分歧、叙事性和线程结构。该数据集还包括统计比较工具和迭代LLM驱动的校准系统，以衡量生成线程与真实讨论分布的接近程度。

MiroBench is a benchmark dataset for evaluating whether online discussion threads generated by LLMs conform to real Reddit discussion patterns. It provides real Reddit discussion threads across 5 product categories, namely credit cards, cameras, mobile phones, headphones, and laptops. Each category contains hundreds of real threads and corresponding product descriptions, and covers 57 fine-grained metrics spanning 9 rating families, such as lexical diversity, semantic similarity, toxicity, sentiment, politeness, disagreement, narrativity, and thread structure. The dataset also includes statistical comparison tools and an iterative LLM-driven calibration system to quantify how closely generated threads align with real discussion distributions.

创建时间：

2026-05-10

原始信息汇总

MiroBench 数据集概述

数据集简介

MiroBench 是一个用于评估大语言模型（LLM）生成的在线讨论线程是否与真实 Reddit 讨论模式匹配的基准测试。

领域与规模

数据集涵盖 5 个产品领域，每个领域包含真实 Reddit 讨论线程及对应的产品描述：

领域	真实线程数	产品数	描述
`credit_cards`	2,653	200	来自 r/CreditCards 的信用卡讨论
`cameras`	738	200	来自摄影子版块的数码/无反相机讨论
`cell_phones`	358	200	来自手机相关子版块的智能手机讨论
`headphones`	256	200	来自音频子版块的耳机/耳塞讨论
`laptops`	307	200	来自计算子版块的笔记本电脑讨论

评估指标体系

提供 9 个评分器家族，涵盖 57 个细粒度指标：

评分器	关键指标	描述
Disagreement	`mean_disagree_probability`, `hard_disagree_rate`	基于 RoBERTa 的立场分类
Self-BLEU	`self_bleu_2/3/4`	评论间词汇多样性（越低越多样）
Self-BERTScore	`self_bertscore_mean_f1`	评论对之间的语义相似性
Semantic Uniformity	`semantic_mean_cosine`	基于 sentence-transformers 的嵌入空间相似性
StorySeeker	`mean_story_probability`, `story_rate`	叙事内容检测
GoEmotions	`emotion_entropy`, `emotion_shift_rate`, `dominant_emotion_share`	28 类细粒度情感分类
Politeness	`polite_rate`, `impolite_rate`, `neutral_rate`	礼貌/文明程度分类
Structure	`max_depth`, `avg_depth`, `avg_branching_factor`, `structural_virality`	线程树拓扑结构
Detoxify	`toxicity_mean`, `obscene_mean`, `insult_mean`, `identity_attack_mean`	多维毒性评分

统计比较工具

提供以下统计方法，用于衡量生成线程与真实讨论模式的匹配程度：

Mann-Whitney U 检验：分布差异显著性
Kolmogorov-Smirnov 检验：分布形状差异
Cliffs delta：效应大小（-1 到 1）
Wasserstein 距离：推土机距离（越低越接近真实分布）

校准系统

包含一个迭代式 LLM 驱动的校准系统，自动调整模拟参数以缩小生成线程与真实讨论分布之间的差距：

阶段 0：基线评估
阶段 1：迭代校准循环（默认 12 次迭代，每次 5 个候选方案）
阶段 2：最终评估（默认 9 次模拟运行）

数据存储结构

mirobench/data/ credit_cards/ reference_scores/ # 真实线程评分（train/val/test 划分） products/ # 用于生成的产品描述 example_threads/ # 示例评分线程 cameras/ # 同上结构 cell_phones/ # 同上结构 headphones/ # 同上结构 laptops/ # 同上结构 example_thread_format.json # 参考 JSON 模式

许可协议

MIT License

搜集汇总

数据集介绍

构建方式

MiroBench 的构建基于真实 Reddit 讨论数据，涵盖信用卡、相机、手机、耳机和笔记本电脑五个产品领域。每个领域选取 200 款产品，并收集相应子论坛中的真实讨论线程，总计超过 4312 条线程。这些线程经过标准化指标评分，形成参考数据集。构建过程还包括一个迭代式的大语言模型驱动的校准系统，该系统通过分析生成线程与真实线程之间的统计差异，自动调整模拟参数，以最小化分布差距。

特点

MiroBench 的核心特点在于其多维度的评估体系，包含 9 个评分器家族，覆盖词汇多样性、语义相似性、情感、礼貌程度、分歧程度、叙事性及线程结构等 57 个细粒度指标。此外，它提供了丰富的统计比较工具，如曼-惠特尼 U 检验、柯尔莫哥洛夫-斯米尔诺夫检验、Cliff's delta 和 Wasserstein 距离，可量化生成线程与真实模式的接近程度。其校准系统能自动优化模拟参数，显著提升了生成结果的真实性。

使用方法

使用 MiroBench 时，用户需首先生成讨论线程，每个线程保存为特定 JSON 格式的 'discussion.json' 文件。随后通过命令行工具 'mirobench score' 对所有线程进行评分，生成包含多维度指标得分的 CSV 文件。最后使用 'mirobench compare' 命令将生成结果与真实参考数据对比，获取统计差异报告。用户可根据输出中的 p 值、Cliff's delta 和 Wasserstein 距离等指标，评估生成线程的逼真程度，并可利用校准系统进一步优化生成参数。

背景与挑战

背景概述

MiroBench是一个由研究者于2026年创建的基准测试数据集，旨在评估大型语言模型（LLM）生成在线讨论线程的真实性。该数据集聚焦于五个产品领域（信用卡、相机、手机、耳机和笔记本电脑），通过收集真实的Reddit讨论线程作为参照，构建了一套涵盖词汇多样性、语义相似性、毒性、情感、礼貌性、分歧度、叙事性和线程结构等9大评分族（57个细粒度指标）的评估体系。MiroBench的核心研究问题是检验LLM模拟的讨论是否能够匹配真实人类互动的统计分布特征，为智能体仿真领域提供了标准化评估工具。其迭代式校准系统能够自动调整仿真参数以缩小生成与真实讨论之间的分布差距，对推动更真实、可信的智能体对话模拟研究具有重要影响。

当前挑战

MiroBench所解决的领域挑战在于，现有LLM生成的讨论线程往往缺乏真实人类讨论中复杂的统计特性，如情绪波动、礼貌程度变化、叙事结构多样性和意见分歧的自然分布。数据集构建过程中面临多重挑战：首先，需要从Reddit等平台结构化采集并清洗大规模真实讨论数据，确保领域覆盖的广度和代表性；其次，设计并验证57个细粒度评估指标的有效性，确保它们能从多个维度准确捕捉讨论的真实性；此外，构建可靠的统计比较框架（如MWU检验、KS检验、Cliff's delta和Wasserstein距离）以量化生成与真实分布之间的差异；最后，实现高效的迭代校准系统，通过LLM驱动自动调整仿真参数，在多个候选方案中寻找最优设置，同时保持计算资源的合理消耗。

常用场景

经典使用场景

MiroBench以其对在线讨论真实性的多维度评估能力，成为研究大型语言模型生成对话真实性的经典基准。该数据集覆盖信用卡、相机、手机、耳机和笔记本电脑五大产品领域，囊括4512条真实Reddit讨论线程。研究者利用其57项细粒度指标（涵盖词汇多样性、语义相似度、毒性、情感、礼貌性、分歧、叙事性和线程结构），通过统计比较工具（MWU检验、KS检验、Cliff's delta、Wasserstein距离），量化生成讨论与真实模式的偏离程度，从而揭示LLM在模拟人类在线互动时的本质局限。

衍生相关工作

MiroBench的提出催生了多项开创性研究工作。基于其校准系统，研究者进一步开发了自适应参数优化算法，能够自动调整多智能体仿真的提示覆盖层，显著提升了生成对话在情感分布与线程结构上的真实性。该数据集的统计比较框架已被拓展至跨平台对话质量评估，衍生出适用于Twitter、YouTube等不同社交生态的个性化真实性度量体系。同时，其细粒度指标系统被整合至多智能体训练管线中，成为强化学习奖励函数的一部分，推动仿真精度与多样性的联合优化，为构建更逼真的社交智能体生态系统奠定了方法论基础。

数据集最近研究