allenai/social_i_qa|社交智能数据集|问答系统数据集
收藏数据集概述
数据集名称
- 名称: Social Interaction QA
- 简称: Social IQa
数据集信息
- 特征:
context
: 字符串类型question
: 字符串类型answerA
: 字符串类型answerB
: 字符串类型answerC
: 字符串类型label
: 字符串类型
- 数据分割:
train
: 33410个样本,6389954字节validation
: 1954个样本,376508字节
- 下载大小: 2198056字节
- 数据集大小: 6766462字节
数据集描述
- 概述: Social IQa是一个专注于测试社会常识智能的问题回答基准。与许多关注物理或分类知识的先前基准不同,Social IQa侧重于推理人们的行动及其社会影响。该数据集包含超过37,000个QA对,用于评估模型对日常事件和情况的社会影响的推理能力。
数据集结构
- 数据实例: 示例包括
context
,question
,answerA
,answerB
,answerC
, 和label
。 - 数据字段:
context
: 描述情境的字符串question
: 提出的问题answerA
,answerB
,answerC
: 可能的答案label
: 正确答案的标签
- 数据分割:
train
: 33410个样本validation
: 1954个样本
贡献者
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录