SS-Bench
收藏arXiv2024-06-22 更新2024-06-26 收录
下载链接:
https://github.com/MIMIFY/SS-Bench
下载链接
链接失效反馈官方服务:
资源简介:
SS-Bench是由北京交通大学和腾讯MLPD联合开发的社会故事生成与评估基准数据集。该数据集包含5085个故事,旨在通过严格的结构清晰性、描述性导向和情境安全性约束,帮助自闭症儿童理解和参与日常社交活动。数据集的创建过程采用了一种名为STARSOW的约束驱动策略,通过高级语言模型如GPT-4o生成故事。SS-Bench的应用领域主要集中在自闭症儿童的社交技能干预,旨在通过自动化和可访问的方法提高故事的多样性和时效性,从而改善这一特殊群体的未来生活质量。
SS-Bench is a benchmark dataset for social story generation and evaluation co-developed by Beijing Jiaotong University and Tencent MLPD. This dataset contains 5085 stories, which is designed to help autistic children understand and engage in daily social activities by imposing strict constraints on structural clarity, descriptive orientation and situational safety. The dataset was developed using a constraint-driven strategy named STARSOW, with stories generated by advanced large language models such as GPT-4o. Its main application fields focus on social skill intervention for autistic children, aiming to improve the diversity and timeliness of stories through automated and accessible methods, thereby enhancing the future quality of life for this special group.
提供机构:
北京交通大学交通数据分析与挖掘北京市重点实验室
创建时间:
2024-06-22
原始信息汇总
数据集概述
数据集名称
SS-Bench: A Benchmark for Social Story Generation and Evaluation
相关论文
- 论文标题:SS-Bench: A Benchmark for Social Story Generation and Evaluation
- 论文链接:https://arxiv.org/abs/2406.15695
搜集汇总
数据集介绍

构建方式
SS-Bench数据集的构建采用了STARSOW策略,这是一种层次化的约束驱动方法,用于从179个手动编写的种子故事中生成多样化的社交故事。该方法包括四个步骤:取根、分支、结果实和园艺工作。取根阶段使用LLMs生成新的章节根节点;分支阶段从根节点生成多样化的社交故事标题;结果实阶段根据标题生成故事内容;园艺工作阶段过滤掉无效和冗余的章节、标题和故事。SS-Bench数据集包含57个章节主题和超过5K个社交故事,每个章节至少包含70个故事。
特点
SS-Bench数据集的特点包括多样化、层次化和高质量。多样化体现在生成的故事与种子故事之间的ROUGE-L相似度低,表明故事内容新颖;层次化体现在数据集的结构,包括章节、标题和故事内容;高质量体现在故事内容符合严格的约束条件,包括结构清晰、描述性和情境安全性。此外,数据集还包含质量评估标准,用于验证故事的有效性。
使用方法
SS-Bench数据集可用于构建和评估社交故事生成模型。用户可以使用数据集中的故事对LLMs进行微调,以提高模型生成社交故事的能力。此外,数据集还提供了质量评估标准,用于评估生成的故事是否符合严格的约束条件。SS-Bench数据集的目标是使社交故事更易于获取、更经济且质量更高,以便在自闭症社区中使用。
背景与挑战
背景概述
自闭症谱系障碍(ASD)儿童在理解社交情境和参与日常生活方面存在困难。为了提高他们在这些方面的能力,心理学专家在结构清晰、描述性导向和情境安全的严格约束下编写了社会故事™。然而,社会故事的创建成本高昂,且通常在多样性和时效性方面有限。随着大型语言模型(LLMs)的日益强大,迫切需要更多自动化、经济实惠且易于访问的方法来实时生成广泛覆盖的社会故事。将LLMs适应社会故事独特的严格约束是一个具有挑战性的问题。为了解决这一问题,我们提出了SS-Bench,一个用于生成和评估社会故事的社会故事基准。具体而言,我们开发了一种名为STARSOW的约束驱动策略,以分层提示LLMs生成社会故事,并构建了一个基准,该基准已通过实验验证,用于微调较小的模型以生成合格的社会故事。此外,我们引入了质量评估标准,用于人类和GPT评估,以验证生成故事的有效性。我们希望这项工作能够造福自闭症社区,并促进未来研究关注特定群体。
当前挑战
SS-Bench数据集旨在解决自闭症儿童在社交理解方面的挑战,特别是通过生成自动化、经济实惠且易于访问的社会故事。该数据集面临的挑战包括:1)解决领域问题的挑战:社会故事™的生成必须遵循严格的约束,包括结构清晰、描述性导向和情境安全,这要求LLMs在生成故事时必须考虑到这些约束,以确保故事对自闭症儿童的有效性。2)构建过程中的挑战:构建SS-Bench数据集需要开发一种名为STARSOW的约束驱动策略,该策略能够从最小的种子集中分层提示LLMs生成社会故事。这要求研究人员能够设计有效的提示模板和评估标准,以确保生成的故事符合社会故事™的约束,并能够满足自闭症儿童的需求。
常用场景
经典使用场景
SS-Bench 数据集被广泛用于评估和生成面向自闭症谱系障碍(ASD)儿童的社交故事。该数据集包含大量经过精心设计的社交故事,旨在帮助 ASD 儿童理解社交情境并参与日常生活。研究人员可以利用 SS-Bench 数据集来训练和评估大型语言模型(LLM)生成符合严格要求的社交故事,从而提高 ASD 儿童的社会技能和未来生活质量。
实际应用
SS-Bench 数据集在实际应用中具有广泛的应用前景。它可以用于为 ASD 儿童开发社交技能干预工具,帮助他们理解社交情境并参与日常生活。此外,SS-Bench 还可以帮助家长和特殊教育教师根据孩子的具体需求定制社交故事,从而提高干预效果。此外,SS-Bench 还可以用于开发多模态社交故事,结合文本、图像、音频和视频等多种形式,以更好地满足 ASD 儿童的多样化需求。
衍生相关工作
SS-Bench 数据集的提出和相关研究工作为社交故事生成领域带来了新的突破。相关研究工作包括探索如何使用 LLM 生成高质量的社交故事,如何评估社交故事的有效性,以及如何根据孩子的具体需求定制社交故事。这些研究工作有助于推动社交故事生成领域的发展,并为 ASD 儿童提供更好的支持和帮助。
以上内容由遇见数据集搜集并总结生成



