Prosa

github2026-05-03 更新2026-05-06 收录

下载链接：

https://github.com/maritaca-ai/Prosa

下载链接

链接失效反馈

官方服务：

资源简介：

Prosa是一个基于1,000个真实用户多轮巴西葡萄牙语对话的基准数据集，这些对话来源于WildChat。候选模型响应会根据每个问题的二元评分标准（通过/失败）由LLM评委进行评分，并通过多评委后置过滤器在最终评分前移除低质量评分标准。

Prosa is a benchmark dataset comprising 1,000 multi-turn Brazilian Portuguese dialogues from real users, sourced from WildChat. Candidate model responses are scored by LLM judges using a binary pass/fail scoring criterion for each query, with low-quality scoring outputs removed via multi-judge post-filters prior to final score aggregation.

创建时间：

2026-05-03

原始信息汇总

数据集 Prosa 概述

基本信息

名称：Prosa
语言：巴西葡萄牙语（Brazilian Portuguese）
来源：基于 WildChat 数据集中的 1,000 个真实用户多轮对话
用途：评估模型在巴西葡萄牙语多轮对话中的表现

数据集构成与构建

从 WildChat 的 480 万条对话中，经过多步骤筛选，最终得到 1,000 条对话作为提示集
构建流程包含 7 个过滤步骤（filter_step1_base.py 至 filter_step7_sample_1000.py）
中间数据：第 6 步输出 1,355 条候选对话，第 7 步随机采样得到最终 1,000 条对话

评估方法

评分方式：针对每个问题生成二元评价标准（通过/不通过），由大语言模型作为评判者对候选模型的回答进行评分
后处理过滤：采用多评判者后置过滤机制，在最终评分前移除低质量的评价标准
评分组件：
- 评价标准生成脚本：Prosa-benchmark/prosa/gen_rubrics.py
- 评分公式与评判提示：Prosa-benchmark/prosa/gen_score.py
- 多评判者过滤脚本：Prosa-benchmark/prosa/filter_rubrics.py

数据内容

冻结的 1,000 道题目及其 12,920 条原始评价标准和过滤结果：Prosa-benchmark/prosa/data/prosa/question.jsonl
16 个候选模型 × 3 个评判者的评判结果：Prosa-benchmark/prosa/data/prosa/score_rubric/、score_holistic/（整体基线评分）
用于稳定性过滤的三次独立运行结果：Prosa-benchmark/prosa/data/prosa/score_rubric/、score_rubric_run2/、score_rubric_run3/

使用方式

复现论文排行榜（无需API调用）

bash cd Prosa-benchmark pip install -r requirements.txt python -m prosa.show_score --filtered # 基于评价标准的排行榜（论文表5） python -m prosa.show_score_holistic # 整体基线评分（论文第5.1节）

评估新模型

使用单一评判者（推荐 Gemini 3 Flash），按三步流程操作：生成回答 → 评分 → 展示过滤后排行榜

重新运行过滤

使用 prosa.filter_rubrics 模块，按论文第4.3节描述的配置即可复现过滤结果

搜集汇总

数据集介绍

构建方式

Prosa是一个面向巴西葡萄牙语的多轮对话基准测试数据集，其构建过程始于从WildChat大规模语料库中筛选出约480万条对话记录。经过一系列精心设计的过滤步骤，包括语言检测、对话质量评估及无意义内容剔除，最终通过随机抽样方式保留了1000条高质量的真实用户多轮对话，形成该数据集的提示集。整个构建流程严格遵循流水线式处理，每一步均有明确的代码实现和中间结果存档，确保了数据筛选的可重复性与透明度。

特点

该数据集的核心特色在于其评估机制的设计，即采用基于二元评分标准（通过/不通过）的细粒度评估框架。每个候选模型的回复均由大语言模型裁判依据逐问题生成的评分标准进行评判，随后引入多裁判后处理过滤器，对低质量评分标准进行二次筛选，以提升最终评分的可靠性。此外，数据集提供了完整的16个候选模型与3个裁判的评分结果，并支持对评分标准过滤器的重新运行，便于研究者验证和扩展实验。

使用方法

使用者可通过两种路径利用Prosa数据集：一是无API调用地复现论文排行榜，仅需执行两条命令即可从本地冻结数据中生成基于评分标准的排行榜和整体评估基线；二是评估新模型，需遵循三步流程，即先生成回复，再调用评分脚本，最后展示过滤后的得分。所有代码、中间数据及最终评分均以文件形式开放，用户可依需调整配置参数，重跑评分标准过滤器，从而灵活适配不同的评估场景。

背景与挑战

背景概述

Prosa数据集是专为巴西葡萄牙语构建的大规模多轮对话基准测试，于2023年由研究团队从WildChat语料库中精选1000条真实用户交互构成。其核心研究问题在于解决当前对话评估体系过度依赖英语资源、缺乏鲁棒性和细粒度衡量标准的问题。通过引入LLM裁判对候选模型进行基于二元评分规则的逐题评估，并创新性地采用多裁判后验过滤机制剔除低质量评分项，Prosa为巴西葡萄牙语的自然语言处理领域建立了首个可复现的标准化评测框架。该数据集在低资源语言对话系统评估、自动评分机制可靠性验证等方面具有重要影响力，推动了多语言对话AI评估的范式革新。

当前挑战

Prosa数据集面临双重挑战。在领域问题层面，巴西葡萄牙语作为低资源语言，缺乏高质量、多轮对话的标注基准，现有评估方法难以有效捕捉对话连贯性与语言特异性，亟需构建能反映真实用户交互场景的细粒度评测体系。在构建过程中，团队需从含4.8万条记录的原始语料中逐步过滤噪声（如非巴西葡萄牙语、违规内容等），最终仅保留0.02%的有效数据；同时需设计复杂的管线和多阶段过滤流程（7步过滤随机抽样）以消除评估偏差，并开发基于判别式评分规则与多裁判共识的后校正机制，确保评分结果在跨模型比较中的一致性和区分度。

常用场景

经典使用场景

Prosa数据集专为评估多轮对话系统的响应质量而设计，其经典使用场景在于构建和验证面向葡萄牙语的大语言模型（LLM）评测基准。该数据集从WildChat中筛选出1000组真实的用户多轮对话，每个问题均附带二值化评分标准（通过/未通过），由LLM裁判依据标准进行评分，并通过多裁判后置过滤机制剔除低质量评分。研究者常利用Prosa对不同候选模型进行端到端评估，通过统一的生成答案、评分和展示排行榜流程，客观衡量模型在复杂连贯对话中的表现能力。

衍生相关工作

Prosa衍生了一系列相关学术与工程工作。其构建方法论启发了针对其他低资源语言（如印地语、斯瓦希里语）对话基准的研发，推动了多语言评估框架的扩展。多裁判后置过滤策略被后续研究引用，用于改进鲁棒评分机制。Prosa的二元评分标准生成模板亦被集成至自动化评测工具中，促进了LLM评测从人工主导向模型协作的转型。该数据集已成为巴西葡萄牙语NLP领域的重要测试平台，支撑多项对比实验与方法论创新。

数据集最近研究