lighteval/big_bench_hard
收藏BIG-Bench Hard Tasks 数据集概述
布尔表达式
评估一个随机布尔表达式的真值,该表达式由布尔常量(True, False)和基本布尔运算符(and, or, not)组成。
因果判断
给定一个涉及道德、意图或反事实分析的短故事,确定一个典型人会如何回答关于该故事的因果问题。
日期理解
给定关于特定日期的一小段句子,回答所提供的问题。
歧义消解问答
给定一个含有歧义代词的句子,要么确定该句子是否本质上含糊不清(即代词所指的事物无法根据给定信息推断),要么如果代词可以隐含推断,说明代词的先行词(即代词所指的名词)。
Dyck 语言
预测一个 Dyck-4 单词的闭括号序列,但不包括其最后几个闭括号。
形式谬误三段论否定
给定一个涉及一组陈述(由某个论证模式生成)的上下文,确定一个非正式呈现的论证是否可以从提供的上下文中逻辑推导出来。
几何形状
给定一个包含多个命令的完整 SVG 路径元素,确定如果执行完整路径元素将生成的几何形状。
超位(形容词排序)
给定两个英语句子,确定哪一个具有正确的形容词顺序。
逻辑推理
根据线索和关于它们的空间关系和位置的信息,推断物体序列的顺序。
电影推荐
给定用户可能观看并喜欢的电影列表,从用户可能的四个潜在选择中推荐一部新的、相关的电影给用户。
多步骤算术
解决涉及基本算术运算(加法、减法、乘法和除法)的多步骤方程。
导航
给定一系列导航步骤给一个代理,确定该代理是否会回到其初始起点。
物体计数
给定一个人的财产及其数量(例如,三架钢琴、两个草莓、一张桌子和两个西瓜),确定某个物体/物品类别的数量(例如,水果)。
表格中的企鹅
给定一个独特的企鹅表格(有时包含一些新信息),回答关于企鹅属性的问题。
关于有色物体的推理
给定一个上下文,回答一个关于表面上的物体颜色的简单问题。
破坏名称
给定一个艺术家、乐队或电影名称,识别一个单字符编辑,该编辑改变输入的含义并使其变得幽默。
显著翻译错误检测
给定用德语写的源句及其英语翻译,确定翻译句子包含的翻译错误类型。
讽刺
给定两个几乎相同的句子,确定哪一个具有讽刺意味。
体育理解
确定与体育相关的虚构句子是否合理。
时间序列
给定一个人在一天中完成的一系列事件和活动,确定他们在一天中的某个时间可能空闲以执行另一个活动。
跟踪洗牌物体
给定一组物体的初始位置和一系列变换(即成对交换)应用于它们,确定物体的最终位置。
谎言网络
评估一个随机布尔函数作为自然语言单词问题的真值。
单词排序
给定一个单词列表,按字典顺序排序。



