jhu-clsp/AnaloBench
收藏Hugging Face2024-12-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/jhu-clsp/AnaloBench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个类比任务。任务1(T1)是一个较小的任务,要求模型从四个选项中选择最类似的故事。任务2(T2)是一个较大的任务,要求模型从200个选项中选择最类似的故事。该数据集旨在增强语言模型的类比能力,并提供了相关的论文和代码库链接。
该数据集包含两个类比任务。任务1(T1)是一个较小的任务,要求模型从四个选项中选择最类似的故事。任务2(T2)是一个较大的任务,要求模型从200个选项中选择最类似的故事。该数据集旨在增强语言模型的类比能力,并提供了相关的论文和代码库链接。
提供机构:
jhu-clsp
原始信息汇总
数据集卡片
数据集概述
本数据集包含两个类比任务。任务1(T1)是一个较小的任务,要求模型从四个选项中选择最相似的故事。任务2(T2)是一个较大的任务,要求模型从200个选项中选择最相似的故事。
数据集详情
数据集来源
- 仓库: AnaloBench
- 论文: AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies
直接用途
本数据集旨在提升语言模型的类比能力,为语言模型在类比推理方面的卓越表现提供坚实基础。
数据集结构
数据集配置
- config_name: T1S1-Full
- data_files: "AnaloBench-T1-Full-S1.csv"
- config_name: T1S10-Full
- data_files: "AnaloBench-T1-Full-S10.csv"
- config_name: T1S30-Full
- data_files: "AnaloBench-T1-Full-S30.csv"
- config_name: T1S1-Subset
- data_files: "AnaloBench-T1-Subset-S1.csv"
- config_name: T1S10-Subset
- data_files: "AnaloBench-T1-Subset-S10.csv"
- config_name: T1S30-Subset
- data_files: "AnaloBench-T1-Subset-S30.csv"
- config_name: T2S1
- data_files: "AnaloBench-T2-S1.csv"
- config_name: T2S10
- data_files: "AnaloBench-T2-S10.csv"
- config_name: T2S30
- data_files: "AnaloBench-T2-S30.csv"
引用
BibTeX:
@misc{ye2024analobench, title={AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies}, author={Xiao Ye and Andrew Wang and Jacob Choi and Yining Lu and Shreya Sharma and Lingfeng Shen and Vijay Tiyyala and Nicholas Andrews and Daniel Khashabi}, year={2024}, eprint={2402.12370}, archivePrefix={arXiv}, primaryClass={cs.CL} }
数据集卡片联系人
搜集汇总
数据集介绍

构建方式
该数据集通过精心挑选的故事及选项构建而成,旨在评估语言模型在类比推理方面的能力。数据集包含两种任务类型:分类任务(T1)和检索任务(T2)。在分类任务中,模型需从四个选项中选择一个最相似的故事;而在检索任务中,模型则需从大约200个候选故事中选择最相似的故事。根据故事的长度,数据集分为不同的子集,包括单句故事(S1)、大约十句故事(S10)和大约五十句故事(S50)。
特点
AnaloBench数据集的主要特点在于其专注于抽象和长上下文类比的识别。它不仅包含较短的故事,也包含较长的故事,从而能够全面评估模型在不同上下文长度下的类比能力。此外,数据集的构建考虑了多样的场景和故事类型,确保了模型训练和评估的多样性和全面性。
使用方法
用户可以通过HuggingFace的库直接加载AnaloBench数据集。根据不同的任务需求,可以选择不同的配置文件,如T1S1-Full或T2S10等。每个配置文件都包含了相应的CSV文件,其中包含了故事、选项和标签等信息。用户可以根据自己的需求对数据集进行预处理,并利用其进行模型的训练、验证和测试。
背景与挑战
背景概述
AnaloBench数据集,由约翰霍普金斯大学计算机语言处理实验室(JHU-CLSP)的研究团队于2024年开发,旨在提升语言模型在类比推理方面的能力。该数据集针对两种类比任务:分类任务(T1)和检索任务(T2),提供了不同长度(1句、10句、50句)的故事文本,以评估模型在不同上下文长度下的类比识别性能。AnaloBench的构建,不仅丰富了类比推理研究领域的数据资源,也为相关模型的训练和评估提供了重要基准。
当前挑战
AnaloBench数据集在构建过程中所面临的挑战主要包括:如何确保故事之间的类比关系具有足够的复杂性和抽象性,以及如何处理大规模检索任务中的计算效率问题。此外,数据集在分类任务和检索任务中所使用的不同长度故事,也带来了模型适应性调整的挑战。研究人员需要在模型设计时考虑这些因素,以实现更好的类比推理性能。
常用场景
经典使用场景
在自然语言处理领域,AnaloBench数据集的经典使用场景主要在于评估和提升语言模型在类比推理方面的能力。该数据集通过设定不同长度和难度的故事比对任务,促使模型在理解故事主旨的基础上,识别出最相似的候选故事,从而检验模型在抽象和长上下文类比识别方面的性能。
实际应用
在实际应用中,AnaloBench数据集可以被用来优化和训练语言模型,使其在处理需要类比推理的复杂任务时更为精确,如教育辅导、智能问答、文本摘要等场景。通过该数据集的辅助,模型能够更好地理解用户的隐含意图和复杂的语义关系,从而提供更加准确和丰富的回答。
衍生相关工作
AnaloBench数据集的推出,促进了相关领域的一系列经典研究工作。研究者们基于该数据集,开展了对语言模型类比推理能力的研究,探索了模型在不同类型和长度的文本中类比识别的效能,以及如何通过改进模型结构来提升其在类比推理任务上的表现,这些研究为自然语言处理领域带来了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成



