unicamp-dl/quati|信息检索数据集|自然语言处理数据集
收藏Quati Information Retrieval Dataset 概述
数据集基本信息
- 名称: Quati Information Retrieval Dataset
- 语言: 巴西葡萄牙语 (pt-br)
- 大小: 1M<n<10M
- 许可: Creative Commons Attribution 4.0 International (CC BY 4.0)
- 任务类别: 问答
数据集内容
- 目标: 支持巴西葡萄牙语信息检索系统的发展。
- 内容: 包含由母语者创建的文档段落和查询(主题)。
数据集版本
- 1M版本: 包含100万个段落。
- 10M版本: 包含1000万个段落。
数据集使用
- 用途: 用于评估针对巴西葡萄牙语文档的信息检索系统。
- 扩展性: 数据集的创建和标注流程可用于进一步扩展段落标注或创建其他针对特定语言的IR数据集。
数据集获取
-
1M段落: python
quati_1M_passages = load_dataset("unicamp-dl/quati", "quati_1M_passages")
-
10M段落: python
quati_10M_all = load_dataset("unicamp-dl/quati", "quati_10M_passages")
-
qrels(相关性判断): python
quati_1M_qrels = load_dataset("unicamp-dl/quati", "quati_1M_qrels") quati_10M_qrels = load_dataset("unicamp-dl/quati", "quati_10M_qrels")
-
主题: python
quati_all_topics = load_dataset("unicamp-dl/quati", "quati_all_topics") quati_test_topics = load_dataset("unicamp-dl/quati", "quati_test_topics")
-
完整数据集: 可通过克隆Hugging Face Hub上的git仓库获取。
git clone git@hf.co:datasets/unicamp-dl/quati quati_dataset
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
FEVER
FEVER(Fact Extraction and VERification)数据集是一个用于事实验证任务的数据集,包含超过185,000个标注的声明,这些声明需要从维基百科中提取证据进行验证。数据集的目标是帮助开发和评估自动事实验证系统。
fever.ai 收录
NASA Battery Dataset
用于预测电池健康状态的数据集,由NASA提供。
github 收录