hlab/SocialiteInstructions
收藏数据集概述
数据集名称
SocialiteInstructions
数据集描述
SocialiteInstructions 是一个包含26个多样化的社会科学数据集,涵盖了所有基本类别的社会知识,并带有详细的任务说明。
支持的任务和排行榜
该数据集旨在提高大型语言模型对社会理解的能力。
语言
英语
数据结构
数据实例
一个典型的数据点包括一个任务说明(Instruction)、一个输入(Input)和一个输出(Output)。任务说明详细描述了任务,输入包含原始输入句子,输出是用于指令调用的转换生成文本标签。
数据字段
- Instruction - 详细描述任务的精心策划的指令
- Input - 任务的原始输入文本
- Output - 转换生成文本标签
- Model Input - 包含指令的实际输入到大型语言模型
- task_type - 特定数据实例的社会科学任务
- record_id - 每个数据实例的唯一标识符
- dataset_type - 已见任务或相关社会任务
- Premise(可选)- FLUTE(比喻)任务类型的前提
- Hypothesis(可选)- FLUTE(比喻)任务类型的假设
- Patient(可选)- EmpathyExplorations任务类型的患者帖子
- Counselors Response(可选)- EmpathyExplorations任务类型的咨询师回应
数据分割
| 训练集 | 验证集 | 测试集 |
|---|---|---|
| 108k | 35.6k | 59.1k |
引用信息
@inproceedings{ dey-etal-2024-socialite, title={{SOCIALITE}-{LLAMA}: An Instruction-Tuned Model for Social Scientific Tasks}, author={Dey, Gourab and V Ganesan, Adithya and Lal, Yash Kumar and Shah, Manal and Sinha, Shreyashee and Matero, Matthew and Giorgi, Salvatore and Kulkarni, Vivek and Schwartz, H. Andrew}, address = "St. Julian’s, Malta", booktitle={18th Conference of the European Chapter of the Association for Computational Linguistics}, year={2024}, publisher = {Association for Computational Linguistics} }



