ibm/duorc|文本理解数据集|文本生成数据集
收藏数据集概述
数据集名称: DuoRC
语言: 英语 (en
)
许可证: MIT
多语言性: 单语
大小类别:
- 100K<n<1M
- 10K<n<100K
源数据集: 原始
任务类别:
- 问答
- 文本到文本生成
任务ID:
- abstractive-qa
- extractive-qa
配置名称:
- ParaphraseRC
- SelfRC
数据集结构
数据实例
数据实例包含以下字段:
plot_id
: 字符串,电影情节ID。plot
: 字符串,电影情节文本。title
: 字符串,电影标题。question_id
: 字符串,问题ID。question
: 字符串,问题文本。answers
: 字符串序列,答案列表。no_answer
: 布尔值,指示问题是否有答案。
数据分割
数据集分为训练、验证和测试集,具体大小如下:
配置名称 | 训练集大小 | 验证集大小 | 测试集大小 |
---|---|---|---|
ParaphraseRC | 69,524 | 15,591 | 15,857 |
SelfRC | 60,721 | 12,961 | 12,559 |
数据集创建
注释过程
- SelfRC: 注释者可以在阅读维基百科电影情节后标记答案范围或合成自己的答案。
- ParaphraseRC: 使用来自SelfRC的维基百科电影情节的问题,注释者根据IMDb电影情节回答问题。
注释者
Amazon Mechanical Turk Workers
许可证信息
MIT License
引用信息
@inproceedings{DuoRC, author = { Amrita Saha and Rahul Aralikatte and Mitesh M. Khapra and Karthik Sankaranarayanan}, title = {{DuoRC: Towards Complex Language Understanding with Paraphrased Reading Comprehension}}, booktitle = {Meeting of the Association for Computational Linguistics (ACL)}, year = {2018} }
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录