parrot

Hugging Face2024-08-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/RedBlock/parrot

下载链接

链接失效反馈

官方服务：

资源简介：

PARROT数据集是一个用于评估大型语言模型（LLM）在问答任务中表现的综合基准数据集，特别是针对琐事类问题。该数据集由Redblock精心策划，包含两个独特的子集：PARROT-Jeopardy和PARROT-Millionaire，分别来源于游戏节目《危险边缘》（Jeopardy）和《谁想成为百万富翁》（Who Wants to Be a Millionaire）。每个子集都有其特定的结构和特征，旨在评估LLM在不同方面的表现。该数据集采用CC BY 4.0许可，主要用于研究和教育目的。

The PARROT dataset is a comprehensive benchmark for evaluating the performance of Large Language Models (LLMs) in question answering tasks, particularly for trivia-style questions. Meticulously curated by Redblock, it comprises two distinct subsets: PARROT-Jeopardy and PARROT-Millionaire, derived from the iconic game shows *Jeopardy!* and *Who Wants to Be a Millionaire* respectively. Each subset features its own specific structure and characteristics, aiming to evaluate LLMs' performance across diverse aspects. This dataset is licensed under CC BY 4.0 and is primarily intended for research and educational purposes.

创建时间：

2024-08-28

原始信息汇总

数据集卡片 PARROT

数据集描述

PARROT（Performance Assessment of Reasoning and Responses on Trivia）是一个用于评估大型语言模型（LLM）性能的基准数据集。该数据集利用游戏节目数据，通过开放式和封闭式问题格式，提供了对LLM的更真实评估。数据集由Redblock精心策划，源自流行的游戏节目《危险边缘》（Jeopardy）和《谁想成为百万富翁》（Who Wants to Be a Millionaire）。

数据集组成

PARROT-Jeopardy：包含《危险边缘》游戏节目中的问题，特点是问题简短，用于测试推理和歧义处理能力。
PARROT-Millionaire：包含《谁想成为百万富翁》游戏节目中的问题，以其直接性和广泛的话题范围而闻名，用于评估LLM的知识。

数据集信息

创建者： Redblock
共享者： Redblock
许可证： cc-by-4.0

数据集结构

PARROT-Jeopardy

ep_num：季的集数。
air_date：节目播出日期。
extra_info：包括主持人的名字等额外信息。
round_name：进行的轮次（例如，Jeopardy、Double Jeopardy、Final Jeopardy）。
coord：线索在游戏板上的坐标。
category：线索类别。
value：线索的货币价值。
daily_double：布尔值，指示线索是否属于每日双倍轮。
question：线索本身。
answer：标记的答案或猜测。
correct_attempts：正确回答的参赛者数量。
wrong_attempts：错误回答的参赛者数量。

PARROT-Millionaire

question_info：描述价格值和当前问题编号。
question：文本形式的问题。
options：与问题对应的四个预定义选项。
correct_answer：标记的正确答案。
price：从问题信息中提取的特征，表示问题的美元价值。
normalized_options：对选项进行文本规范化的特征。
normalized_correct_opt：对正确答案进行文本规范化的特征。

数据集创建

创建理由

PARROT的创建是为了满足对LLM更真实和更具挑战性的基准测试数据集的需求。通过使用游戏节目数据，该数据集捕捉了广泛的问题类型和难度，提供了一个全面的评估工具。

源数据

数据收集和处理

PARROT-Jeopardy：从《危险边缘》游戏节目的七个关键季中精心策划，确保了节目时间线上的代表性样本。数据从J!Archive（一个包含超过500,000个线索的粉丝创建的档案）中抓取。
PARROT-Millionaire：从Millionaire Fandom网站抓取数据，并进行组织和处理以确保一致性和可靠性。

源数据生产者

PARROT-Jeopardy的原始数据来自《危险边缘》游戏节目的粉丝创建的档案，而PARROT-Millionaire的数据来自Millionaire Fandom网站。

个人和敏感信息

该数据集不包含个人、敏感或私人信息。

引用

BibTeX: bibtex @dataset{parrot2024, author = {Redblock AI Team}, title = {PARROT: Performance Assessment of Reasoning and Responses on Trivia}, year = 2024, publisher = {Redblock}, url = {https://huggingface.co/datasets/redblock/parrot}, license = {CC BY 4.0} }

APA: Redblock AI Team. (2024). PARROT: Performance Assessment of Reasoning and Responses on Trivia. Redblock. Available at https://huggingface.co/datasets/redblock-ai/parrot.

免责声明

重要通知： 该基准数据集包括从《谁想成为百万富翁？Fandom》和《J! Archive》粉丝创建的网站中提取的内容。这些数据集仅用于研究、教育目的和非商业用途。Redblock不拥有这些内容的所有权，也不与《谁想成为百万富翁？》和《J! Archive》的创作者或版权持有者有任何关联。

《谁想成为百万富翁？Fandom》和《J! Archive》是其各自所有者的注册商标。Redblock对这些材料的使用受美国版权法中定义的合理使用原则保护，该原则允许出于批评、评论、新闻报道、教学、奖学金和研究等目的使用受版权保护的材料。

Redblock已根据美国法律修改了这些数据集，以确保内容保持在合理使用的界限内。从这些数据集中创建的任何修改或衍生作品也应遵守合理使用的原则，并尊重原始内容创作者的知识产权。

该基准由Redblock“按原样”提供，不保证其准确性或适用于特定目的。该基准的用户应鼓励尊重版权法和原始内容创作者的知识产权。未经权利持有人适当授权，不得将这些数据集用于商业目的。

搜集汇总

数据集介绍

构建方式

PARROT数据集的构建基于两个著名的电视游戏节目《Jeopardy!》和《Who Wants to Be a Millionaire?》。数据集通过从J!Archive和Millionaire Fandom网站抓取数据，经过精心整理和处理，确保了数据的代表性和一致性。PARROT-Jeopardy部分涵盖了七个关键赛季的数据，而PARROT-Millionaire则通过系统化的数据抓取和标准化处理，形成了结构化的问答对。

特点

PARROT数据集的特点在于其多样化的问答形式和广泛的主题覆盖。PARROT-Jeopardy部分以简短且具有挑战性的问题为主，测试模型在模糊性和推理能力上的表现；而PARROT-Millionaire部分则通过明确的问题和选项，评估模型的知识广度和准确性。数据集还包含丰富的元数据，如问题类别、价值、正确和错误回答次数等，为模型评估提供了多维度的参考。

使用方法

PARROT数据集主要用于评估大型语言模型（LLMs）在问答任务中的表现。研究人员可以通过加载数据集，利用其提供的开放性和封闭性问题格式，对模型进行全面的性能测试。数据集的结构化设计使得用户能够轻松访问和处理数据，同时其丰富的元数据也为深入分析提供了便利。使用该数据集时，建议克隆相关仓库以避免因不同分割特征导致的异常。

背景与挑战

背景概述

PARROT数据集由Redblock团队于2024年推出，旨在为大语言模型（LLMs）提供更为真实和全面的性能评估工具。该数据集基于知名电视节目《Jeopardy!》和《Who Wants to Be a Millionaire?》的问答数据，涵盖了开放式和封闭式问题形式，能够有效测试模型在推理、知识广度和歧义处理等方面的能力。通过结合游戏节目中的多样化问题类型和难度，PARROT为LLMs的评估提供了一个具有挑战性的基准，推动了自然语言处理领域在问答任务中的研究进展。

当前挑战

PARROT数据集在构建和应用过程中面临多重挑战。首先，数据集的核心目标是为LLMs提供真实且多样化的问答场景，这要求问题类型和难度分布具有广泛的代表性。然而，游戏节目中的问题往往涉及复杂的推理和知识整合，这对模型的泛化能力提出了极高要求。其次，数据集的构建依赖于从粉丝创建的档案中提取数据，尽管经过精心处理以确保一致性，但原始数据的质量和完整性仍可能影响最终数据集的表现。此外，数据集的使用需严格遵守版权法，尤其是涉及商业用途时，需确保符合公平使用原则，这为数据集的推广和应用带来了一定的法律限制。

常用场景

经典使用场景

PARROT数据集广泛应用于大型语言模型（LLMs）的基准测试，特别是在问答任务中。通过结合《Jeopardy!》和《Who Wants to Be a Millionaire?》等知名游戏节目的数据，PARROT提供了多样化的开放式和封闭式问题格式，能够有效评估模型在复杂推理和知识广度上的表现。这一数据集不仅为研究者提供了丰富的测试场景，还为模型优化提供了明确的方向。

实际应用

在实际应用中，PARROT数据集被广泛用于开发和优化智能问答系统。例如，教育领域可以利用该数据集训练模型，帮助学生通过互动问答形式学习知识。此外，企业也可以利用PARROT评估其客服系统的问答能力，提升用户体验。通过结合游戏节目的真实数据，PARROT为实际应用场景提供了高度逼真的测试环境，推动了智能问答技术的落地。

衍生相关工作

PARROT数据集的推出催生了一系列相关研究工作。例如，研究者基于PARROT开发了新的评估指标，用于更精确地衡量模型在问答任务中的表现。此外，一些研究团队利用PARROT数据集训练了专门针对开放式问题的生成模型，进一步提升了模型在复杂推理任务中的表现。这些衍生工作不仅丰富了问答系统的研究内容，还为未来模型的优化提供了新的思路。

以上内容由遇见数据集搜集并总结生成