five

lighteval/big_bench_hard

收藏
Hugging Face2023-10-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lighteval/big_bench_hard
下载链接
链接失效反馈
官方服务:
资源简介:
BIG-Bench Hard Tasks数据集包含多个任务,旨在评估模型在不同复杂场景下的表现。任务包括布尔表达式评估、因果判断、日期理解、歧义消解、Dyck语言预测、形式谬误识别、几何形状识别、形容词顺序判断、逻辑推理、电影推荐、多步算术求解、导航判断、对象计数、企鹅表格问题回答、颜色推理、名字幽默化、翻译错误检测、讽刺检测、体育理解、时间序列分析、对象跟踪、谎言网络评估和单词排序等。每个任务都有具体的描述和目的,旨在全面测试模型的能力。
提供机构:
lighteval
原始信息汇总

BIG-Bench Hard Tasks 数据集概述

布尔表达式

评估一个随机布尔表达式的真值,该表达式由布尔常量(True, False)和基本布尔运算符(and, or, not)组成。

因果判断

给定一个涉及道德、意图或反事实分析的短故事,确定一个典型人会如何回答关于该故事的因果问题。

日期理解

给定关于特定日期的一小段句子,回答所提供的问题。

歧义消解问答

给定一个含有歧义代词的句子,要么确定该句子是否本质上含糊不清(即代词所指的事物无法根据给定信息推断),要么如果代词可以隐含推断,说明代词的先行词(即代词所指的名词)。

Dyck 语言

预测一个 Dyck-4 单词的闭括号序列,但不包括其最后几个闭括号。

形式谬误三段论否定

给定一个涉及一组陈述(由某个论证模式生成)的上下文,确定一个非正式呈现的论证是否可以从提供的上下文中逻辑推导出来。

几何形状

给定一个包含多个命令的完整 SVG 路径元素,确定如果执行完整路径元素将生成的几何形状。

超位(形容词排序)

给定两个英语句子,确定哪一个具有正确的形容词顺序。

逻辑推理

根据线索和关于它们的空间关系和位置的信息,推断物体序列的顺序。

电影推荐

给定用户可能观看并喜欢的电影列表,从用户可能的四个潜在选择中推荐一部新的、相关的电影给用户。

多步骤算术

解决涉及基本算术运算(加法、减法、乘法和除法)的多步骤方程。

导航

给定一系列导航步骤给一个代理,确定该代理是否会回到其初始起点。

物体计数

给定一个人的财产及其数量(例如,三架钢琴、两个草莓、一张桌子和两个西瓜),确定某个物体/物品类别的数量(例如,水果)。

表格中的企鹅

给定一个独特的企鹅表格(有时包含一些新信息),回答关于企鹅属性的问题。

关于有色物体的推理

给定一个上下文,回答一个关于表面上的物体颜色的简单问题。

破坏名称

给定一个艺术家、乐队或电影名称,识别一个单字符编辑,该编辑改变输入的含义并使其变得幽默。

显著翻译错误检测

给定用德语写的源句及其英语翻译,确定翻译句子包含的翻译错误类型。

讽刺

给定两个几乎相同的句子,确定哪一个具有讽刺意味。

体育理解

确定与体育相关的虚构句子是否合理。

时间序列

给定一个人在一天中完成的一系列事件和活动,确定他们在一天中的某个时间可能空闲以执行另一个活动。

跟踪洗牌物体

给定一组物体的初始位置和一系列变换(即成对交换)应用于它们,确定物体的最终位置。

谎言网络

评估一个随机布尔函数作为自然语言单词问题的真值。

单词排序

给定一个单词列表,按字典顺序排序。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作