ehovy/race|阅读理解数据集|自然语言处理数据集
收藏数据集概述
名称: RACE
语言: 英语(en)
许可证: 其他(other)
多语言性: 单语(monolingual)
数据集大小: 10,000 < n < 100,000
源数据: 原始(original)
任务类别: 多项选择(multiple-choice)
任务ID: 多项选择问答(multiple-choice-qa)
配置信息:
- 配置名称: all, high, middle
- 特征:
example_id
: 字符串(string)article
: 字符串(string)answer
: 字符串(string)question
: 字符串(string)options
: 字符串序列(sequence of string)
- 数据分割:
- all:
- 训练集: 87,866 样本
- 验证集: 4,887 样本
- 测试集: 4,934 样本
- high:
- 训练集: 62,445 样本
- 验证集: 3,451 样本
- 测试集: 3,498 样本
- middle:
- 训练集: 25,421 样本
- 验证集: 1,436 样本
- 测试集: 1,436 样本
- all:
- 下载大小:
- all: 41,500,647 字节
- high: 33,750,880 字节
- middle: 7,781,596 字节
- 数据集大小:
- all: 174,731,024 字节
- high: 140,117,588 字节
- middle: 34,613,436 字节
数据集创建
注释创建者: 专家生成(expert-generated)
语言创建者: 发现(found)
许可证信息:
- RACE数据集仅供非商业研究目的使用。
- 所有文章均来自互联网,非卡内基梅隆大学所有。我们不对这些文章的内容或含义负责。
- 您同意不复制、出售、交易或利用任何部分内容和任何衍生数据进行商业目的。
- 我们保留随时终止您访问RACE数据集的权利。
引用信息:
@inproceedings{lai-etal-2017-race, title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations", author = "Lai, Guokun and Xie, Qizhe and Liu, Hanxiao and Yang, Yiming and Hovy, Eduard", booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing", month = sep, year = "2017", address = "Copenhagen, Denmark", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D17-1082", doi = "10.18653/v1/D17-1082", pages = "785--794", }
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
马达加斯加岛 – 世界地理数据大百科辞条
马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。
国家对地观测科学数据中心 收录
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录