Prosa
收藏github2026-05-03 更新2026-05-06 收录
下载链接:
https://github.com/maritaca-ai/Prosa
下载链接
链接失效反馈官方服务:
资源简介:
Prosa是一个基于1,000个真实用户多轮巴西葡萄牙语对话的基准数据集,这些对话来源于WildChat。候选模型响应会根据每个问题的二元评分标准(通过/失败)由LLM评委进行评分,并通过多评委后置过滤器在最终评分前移除低质量评分标准。
Prosa is a benchmark dataset comprising 1,000 multi-turn Brazilian Portuguese dialogues from real users, sourced from WildChat. Candidate model responses are scored by LLM judges using a binary pass/fail scoring criterion for each query, with low-quality scoring outputs removed via multi-judge post-filters prior to final score aggregation.
创建时间:
2026-05-03
原始信息汇总
数据集 Prosa 概述
基本信息
- 名称:Prosa
- 语言:巴西葡萄牙语(Brazilian Portuguese)
- 来源:基于 WildChat 数据集中的 1,000 个真实用户多轮对话
- 用途:评估模型在巴西葡萄牙语多轮对话中的表现
数据集构成与构建
- 从 WildChat 的 480 万条对话中,经过多步骤筛选,最终得到 1,000 条对话作为提示集
- 构建流程包含 7 个过滤步骤(
filter_step1_base.py至filter_step7_sample_1000.py) - 中间数据:第 6 步输出 1,355 条候选对话,第 7 步随机采样得到最终 1,000 条对话
评估方法
- 评分方式:针对每个问题生成二元评价标准(通过/不通过),由大语言模型作为评判者对候选模型的回答进行评分
- 后处理过滤:采用多评判者后置过滤机制,在最终评分前移除低质量的评价标准
- 评分组件:
- 评价标准生成脚本:
Prosa-benchmark/prosa/gen_rubrics.py - 评分公式与评判提示:
Prosa-benchmark/prosa/gen_score.py - 多评判者过滤脚本:
Prosa-benchmark/prosa/filter_rubrics.py
- 评价标准生成脚本:
数据内容
- 冻结的 1,000 道题目及其 12,920 条原始评价标准和过滤结果:
Prosa-benchmark/prosa/data/prosa/question.jsonl - 16 个候选模型 × 3 个评判者的评判结果:
Prosa-benchmark/prosa/data/prosa/score_rubric/、score_holistic/(整体基线评分) - 用于稳定性过滤的三次独立运行结果:
Prosa-benchmark/prosa/data/prosa/score_rubric/、score_rubric_run2/、score_rubric_run3/
使用方式
复现论文排行榜(无需API调用)
bash cd Prosa-benchmark pip install -r requirements.txt python -m prosa.show_score --filtered # 基于评价标准的排行榜(论文表5) python -m prosa.show_score_holistic # 整体基线评分(论文第5.1节)
评估新模型
使用单一评判者(推荐 Gemini 3 Flash),按三步流程操作:生成回答 → 评分 → 展示过滤后排行榜
重新运行过滤
使用 prosa.filter_rubrics 模块,按论文第4.3节描述的配置即可复现过滤结果
搜集汇总
数据集介绍

构建方式
Prosa是一个面向巴西葡萄牙语的多轮对话基准测试数据集,其构建过程始于从WildChat大规模语料库中筛选出约480万条对话记录。经过一系列精心设计的过滤步骤,包括语言检测、对话质量评估及无意义内容剔除,最终通过随机抽样方式保留了1000条高质量的真实用户多轮对话,形成该数据集的提示集。整个构建流程严格遵循流水线式处理,每一步均有明确的代码实现和中间结果存档,确保了数据筛选的可重复性与透明度。
特点
该数据集的核心特色在于其评估机制的设计,即采用基于二元评分标准(通过/不通过)的细粒度评估框架。每个候选模型的回复均由大语言模型裁判依据逐问题生成的评分标准进行评判,随后引入多裁判后处理过滤器,对低质量评分标准进行二次筛选,以提升最终评分的可靠性。此外,数据集提供了完整的16个候选模型与3个裁判的评分结果,并支持对评分标准过滤器的重新运行,便于研究者验证和扩展实验。
使用方法
使用者可通过两种路径利用Prosa数据集:一是无API调用地复现论文排行榜,仅需执行两条命令即可从本地冻结数据中生成基于评分标准的排行榜和整体评估基线;二是评估新模型,需遵循三步流程,即先生成回复,再调用评分脚本,最后展示过滤后的得分。所有代码、中间数据及最终评分均以文件形式开放,用户可依需调整配置参数,重跑评分标准过滤器,从而灵活适配不同的评估场景。
背景与挑战
背景概述
Prosa数据集是专为巴西葡萄牙语构建的大规模多轮对话基准测试,于2023年由研究团队从WildChat语料库中精选1000条真实用户交互构成。其核心研究问题在于解决当前对话评估体系过度依赖英语资源、缺乏鲁棒性和细粒度衡量标准的问题。通过引入LLM裁判对候选模型进行基于二元评分规则的逐题评估,并创新性地采用多裁判后验过滤机制剔除低质量评分项,Prosa为巴西葡萄牙语的自然语言处理领域建立了首个可复现的标准化评测框架。该数据集在低资源语言对话系统评估、自动评分机制可靠性验证等方面具有重要影响力,推动了多语言对话AI评估的范式革新。
当前挑战
Prosa数据集面临双重挑战。在领域问题层面,巴西葡萄牙语作为低资源语言,缺乏高质量、多轮对话的标注基准,现有评估方法难以有效捕捉对话连贯性与语言特异性,亟需构建能反映真实用户交互场景的细粒度评测体系。在构建过程中,团队需从含4.8万条记录的原始语料中逐步过滤噪声(如非巴西葡萄牙语、违规内容等),最终仅保留0.02%的有效数据;同时需设计复杂的管线和多阶段过滤流程(7步过滤随机抽样)以消除评估偏差,并开发基于判别式评分规则与多裁判共识的后校正机制,确保评分结果在跨模型比较中的一致性和区分度。
常用场景
经典使用场景
Prosa数据集专为评估多轮对话系统的响应质量而设计,其经典使用场景在于构建和验证面向葡萄牙语的大语言模型(LLM)评测基准。该数据集从WildChat中筛选出1000组真实的用户多轮对话,每个问题均附带二值化评分标准(通过/未通过),由LLM裁判依据标准进行评分,并通过多裁判后置过滤机制剔除低质量评分。研究者常利用Prosa对不同候选模型进行端到端评估,通过统一的生成答案、评分和展示排行榜流程,客观衡量模型在复杂连贯对话中的表现能力。
衍生相关工作
Prosa衍生了一系列相关学术与工程工作。其构建方法论启发了针对其他低资源语言(如印地语、斯瓦希里语)对话基准的研发,推动了多语言评估框架的扩展。多裁判后置过滤策略被后续研究引用,用于改进鲁棒评分机制。Prosa的二元评分标准生成模板亦被集成至自动化评测工具中,促进了LLM评测从人工主导向模型协作的转型。该数据集已成为巴西葡萄牙语NLP领域的重要测试平台,支撑多项对比实验与方法论创新。
数据集最近研究
最新研究方向
在自然语言处理与对话系统评估领域,长期存在评估方法不够细粒度、难以捕捉真实对话复杂性的困境。Prosa数据集应运而生,其创新性地引入了基于二元评分标准(通过/不通过)的评估框架,并采用多裁判后筛选机制剔除低质量评分标准,显著提升了评估的可靠性与公平性。该数据集来源于WildChat中的1000个真实多轮对话,聚焦于葡萄牙语场景,填补了非英语语言的评估基准空白。当前前沿研究方向主要围绕如何在多语言、多轮对话中实现自动化、高一致性的细粒度评测,Prosa通过展示“评分标准生成-多裁判筛选-最终打分”的完整流水线设计,为构建更具鲁棒性和解释性的评估体系提供了可复现的范式,其影响已延伸到低资源语言对话系统的性能量化与公平性验证领域。
以上内容由遇见数据集搜集并总结生成



