UCLNLP/adversarial_qa|自然语言处理数据集|机器学习数据集
收藏数据集概述
数据集总结
- 名称: adversarialQA
- 语言: 英语 (
en
) - 许可证: CC-BY-SA-4.0
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别: 问答
- 任务ID: extractive-qa, open-domain-qa
- 论文代码ID: adversarialqa
- 预处理配置:
- adversarialQA:
- 特征:
- id: 字符串
- title: 字符串
- context: 字符串
- question: 字符串
- answers: 序列
- text: 字符串
- answer_start: int32
- metadata: 结构
- split: 字符串
- model_in_the_loop: 字符串
- 分割:
- train: 30000 样本, 27858686 字节
- validation: 3000 样本, 2757092 字节
- test: 3000 样本, 2919479 字节
- 下载大小: 5301049 字节
- 数据集大小: 33535257 字节
- 特征:
- dbert:
- 特征: 同上
- 分割:
- train: 10000 样本, 9345521 字节
- validation: 1000 样本, 918156 字节
- test: 1000 样本, 971290 字节
- 下载大小: 2689032 字节
- 数据集大小: 11234967 字节
- dbidaf:
- 特征: 同上
- 分割:
- train: 10000 样本, 9282482 字节
- validation: 1000 样本, 917907 字节
- test: 1000 样本, 946947 字节
- 下载大小: 2721341 字节
- 数据集大小: 11147336 字节
- droberta:
- 特征: 同上
- 分割:
- train: 10000 样本, 9270683 字节
- validation: 1000 样本, 925029 字节
- test: 1000 样本, 1005242 字节
- 下载大小: 2815452 字节
- 数据集大小: 11200954 字节
- adversarialQA:
支持的任务和排行榜
- 任务: 抽取式问答 (
extractive-qa
) - 评估指标: F1 分数
- 当前最佳模型: RoBERTa-Large, 64.35% F1
- 排行榜: Dynabench QA Round 1 Leaderboard
数据集结构
- 数据实例: 遵循 SQuAD 1.1 格式
- 数据字段:
- title: 文章标题
- context: 文章内容
- id: 问题唯一标识
- answers: 答案列表,包含 text 和 answer_start
- 数据分割:
- 使用不同模型(BiDAF, BERT-Large, RoBERTa-Large)构建的三个数据集,每个数据集包含 10,000 训练样本,1,000 验证样本,1,000 测试样本
数据集创建
- 注释过程: 通过对抗性人类注释过程收集,人类注释者和阅读理解模型在交互设置中配对
- 注释者: 来自 Amazon Mechanical Turk,地理限制在美国、英国和加拿大,具有高 HIT 批准率
使用数据的考虑
- 社会影响: 旨在帮助开发更好的问答系统
- 偏见讨论: 数据集可能展示源文章选择、注释问题和答案以及算法偏见
附加信息
- 数据集创建者: Max Bartolo, Alastair Roberts, Johannes Welbl, Sebastian Riedel, Pontus Stenetorp
- 贡献者: @maxbartolo
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
马达加斯加岛 – 世界地理数据大百科辞条
马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。
国家对地观测科学数据中心 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录