allenai/social_i_qa|社交智能数据集|问答系统数据集

hugging_face2024-01-18 更新2024-05-25 收录

社交智能

问答系统

下载链接：

https://hf-mirror.com/datasets/allenai/social_i_qa

下载链接

链接失效反馈

资源简介：

社交互动问答（Social IQa）是一个新的问答基准，旨在测试社会常识智能。与许多侧重于物理或分类知识的先前基准不同，Social IQa侧重于推理人们的行动及其社会影响。例如，给定一个行动如“Jesse看了一场音乐会”和一个问题如“Jesse为什么要这么做？”，人们可以轻松推断Jesse想要“看他们最喜欢的表演者”或“享受音乐”，而不是“看看里面发生了什么”或“看看它是否有效”。Social IQa包含超过37,000个QA对，用于评估模型对日常事件和情况社会影响的推理能力。

提供机构：

allenai

原始信息汇总

数据集概述

数据集名称

名称: Social Interaction QA
简称: Social IQa

数据集信息

特征:
- context: 字符串类型
- question: 字符串类型
- answerA: 字符串类型
- answerB: 字符串类型
- answerC: 字符串类型
- label: 字符串类型
数据分割:
- train: 33410个样本，6389954字节
- validation: 1954个样本，376508字节
下载大小: 2198056字节
数据集大小: 6766462字节

数据集描述

概述: Social IQa是一个专注于测试社会常识智能的问题回答基准。与许多关注物理或分类知识的先前基准不同，Social IQa侧重于推理人们的行动及其社会影响。该数据集包含超过37,000个QA对，用于评估模型对日常事件和情况的社会影响的推理能力。

数据集结构

数据实例: 示例包括context, question, answerA, answerB, answerC, 和 label。
数据字段:
- context: 描述情境的字符串
- question: 提出的问题
- answerA, answerB, answerC: 可能的答案
- label: 正确答案的标签
数据分割:
- train: 33410个样本
- validation: 1954个样本

贡献者

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据，旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新，并以Parquet格式提供，可通过DuckDB进行查询。

huggingface 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录