five

JoeyCheng/story_analogy

收藏
Hugging Face2024-04-13 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/JoeyCheng/story_analogy
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit language: - en pretty_name: StoryAnalogy size_categories: - 1K<n<10K --- <h1 align="center">StoryAnalogy: Deriving Story-level Analogies from Large Language Models to Unlock Analogical Understanding</h1> <p align="center"> <a href="https://arxiv.org/abs/2310.12874"><img src="https://img.shields.io/badge/arXiv-2310.12874-b31b1b.svg" alt="Paper" style="display:inline"></a> <a href="https://aclanthology.org/2023.emnlp-main.706/"> <img alt="License" src="https://img.shields.io/static/v1?label=Pub&message=EMNLP%2723&color=blue" style="display:inline"> </a> <a href="https://github.com/LFhase/PAIR"><img src="https://img.shields.io/badge/-Github-grey?logo=github" alt="Github" style="display:inline"></a> <a href="https://github.com/LFhase/PAIR/blob/main/LICENSE"> <img alt="License" src="https://img.shields.io/github/license/LFhase/PAIR?color=blue" style="display:inline"> </a> <a href="https://github.com/loginaway/StoryAnalogy/blob/main/raw/Poster%20-%20StoryAnalogy%20Deriving%20Story-level%20Analogies%20from%20Large%20Language%20Models%20to%20Unlock%20Analogical%20Understanding.pdf"> <img src="https://img.shields.io/badge/Poster-grey?logo=airplayvideo&logoColor=white" alt="Poster" style="display:inline"></a> </div> This is the StoryAnalogy dataset in the EMNLP'23 paper: *[StoryAnalogy: Deriving Story-level Analogies from Large Language Models to Unlock Analogical Understanding](https://arxiv.org/abs/2310.12874)*. If you use this research, please cite us: ```bibtex @inproceedings{jiayang2023storyanalogy, title={StoryAnalogy: Deriving Story-level Analogies from Large Language Models to Unlock Analogical Understanding}, author={Jiayang, Cheng and Qiu, Lin and Chan, Tsz and Fang, Tianqing and Wang, Weiqi and Chan, Chunkit and Ru, Dongyu and Guo, Qipeng and Zhang, Hongming and Song, Yangqiu and others}, booktitle={Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing}, pages={11518--11537}, year={2023} } ```
提供机构:
JoeyCheng
原始信息汇总

数据集概述

数据集名称

  • StoryAnalogy

数据集描述

  • StoryAnalogy 是一个用于从大型语言模型中提取故事级类比以解锁类比理解的数据集。

数据集规模

  • 大小类别:1K<n<10K

数据集语言

  • 语言:英语

数据集相关出版物

数据集许可证

  • 许可证:MIT

引用信息

bibtex @inproceedings{jiayang2023storyanalogy, title={StoryAnalogy: Deriving Story-level Analogies from Large Language Models to Unlock Analogical Understanding}, author={Jiayang, Cheng and Qiu, Lin and Chan, Tsz and Fang, Tianqing and Wang, Weiqi and Chan, Chunkit and Ru, Dongyu and Guo, Qipeng and Zhang, Hongming and Song, Yangqiu and others}, booktitle={Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing}, pages={11518--11537}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理与认知科学交叉领域中,类比推理被视为高级智能的核心能力。为此,研究者从大规模语言模型中衍生出故事级别的类比数据集StoryAnalogy。该数据集的构建依赖于先进的大语言模型,通过精心设计的提示工程,从海量故事文本中自动提取并生成具有类比关系的故事对。具体而言,利用GPT-3等模型的生成能力,结合人工筛选与验证流程,确保每对故事在情节结构、角色功能或主题寓意上呈现深层映射,从而形成高质量的类比样本。最终数据集包含数千条标注样本,涵盖了多样化的故事类型与类比维度。
使用方法
该数据集的使用方法灵活多样,适用于评估和提升语言模型的类比理解能力。研究者可直接加载数据集,利用其内置的故事对与映射标注,训练或微调模型以执行故事类比识别与生成任务。具体操作上,可通过HuggingFace的datasets库轻松访问,将数据划分为训练集与测试集,并配合标准的序列到序列或对比学习框架。此外,数据集还可作为基准,用于衡量模型在跨故事推理、抽象模式提取及零样本迁移等场景下的表现,推动类比推理在人工智能中的深化应用。
背景与挑战
背景概述
类比推理作为人类认知的核心机制,在自然语言处理领域长期局限于词汇或句子层面的研究,而故事级别的类比理解仍是亟待突破的难题。2023年,由香港大学、香港中文大学等机构的研究人员联合构建的StoryAnalogy数据集应运而生,其核心研究问题在于如何利用大型语言模型自动生成高质量的故事级类比,从而推动机器对叙事结构的深层理解。该数据集包含数千条由人工校验的故事类比对,覆盖多元主题,为评估和提升语言模型的类比推理能力提供了标准化基准。论文发表于EMNLP 2023,一经推出便引起学界广泛关注,成为连接认知科学与自然语言处理的重要桥梁。
当前挑战
数据集面临的核心挑战在于故事级类比推理的复杂性远超词汇层面,机器需同时捕捉情节结构、角色动机与主题映射等多维关系,现有模型在此任务上表现欠佳。构建过程中,研究人员需克服大型语言模型生成类比时存在的语义偏差与幻觉问题,通过多轮人工筛选与标注确保数据质量。此外,故事类比的评价标准尚未统一,如何客观量化推理结果的合理性、创造性及逻辑一致性,成为制约领域发展的关键瓶颈。数据集的稀疏性与故事长度的多样性,亦为模型的泛化训练带来额外难度。
常用场景
经典使用场景
在自然语言处理与认知科学交汇的疆域中,StoryAnalogy数据集专为探究故事层面的类比推理而设计。其最经典的使用场景在于评估与训练大规模语言模型对叙事结构中隐含的抽象映射关系的捕捉能力。研究者可借助该数据集,引导模型识别不同故事之间在情节、角色动机或主题上的深层相似性,从而验证模型是否具备超越表层语义的类比理解力。这一场景为比较不同架构的语言模型在复杂认知任务上的表现提供了标准化的测试基准。
解决学术问题
该数据集直面自然语言理解领域一个长期悬而未决的学术难题——如何量化并促进机器对故事级类比关系的自动发现。传统研究多聚焦于词汇或句子层面的类比,而忽视了叙事整体中蕴含的结构性对齐。StoryAnalogy通过提供人工标注的高质量类比故事对,使得研究者能够系统性地分析语言模型在跨故事映射、关系推理及抽象归纳方面的短板,推动了从模式匹配到真正认知模拟的范式跃迁。其发布极大地丰富了类比推理这一经典认知课题在计算语言学中的实证基础。
实际应用
在实际应用中,StoryAnalogy数据集为智能叙事系统、教育辅导工具和创意写作辅助平台注入了新的活力。例如,在自适应学习环境中,系统可依据数据集中的类比范例,为学生生成跨文本的类比练习题,以训练其批判性思维与迁移学习能力。在内容推荐领域,该数据集赋能算法从故事结构层面识别文学作品之间的内在关联,从而提供更具深度的个性化推荐。此外,它还能增强对话机器人在多轮交互中理解用户隐喻与类比表达的能力,实现更自然的人机沟通。
数据集最近研究
最新研究方向
StoryAnalogy数据集聚焦于利用大语言模型从故事层面提取类比关系,以解锁机器在叙事理解中的类比推理能力。这一方向紧密关联当前自然语言处理领域对高级语义理解与常识推理的探索,尤其在人工智能需要应对复杂叙事结构、隐喻映射及跨故事知识迁移的场景中具有突破性意义。该数据集通过大规模生成与验证故事级类比对,推动了类比推理从概念层面迈向叙事层面,为评估与提升大语言模型在创造性思维、逻辑迁移和深层语义对齐上的表现提供了关键基准。其研究成果已被EMNLP 2023收录,标志着故事级类比理解成为大语言模型前沿评估与能力增强的重要维度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作