ArCLIS-Corpus|阿拉伯语数据集|学术研究数据集
收藏ArCLIS-Corpus 概述
数据集描述
ArCLIS-Corpus,即阿拉伯图书馆与信息科学语料库,是一个专注于学术领域的阿拉伯语语料库。该语料库旨在为实证研究提供数据支持,减少对研究人员直觉的依赖。
数据集结构
ArCLIS-Corpus 的结构包括以下几个部分:
- 期刊名称
- 文章数量
- 总词数
- 数据集大小(以兆字节计)
数据集详细信息
期刊名称 | 文章数量 | 总词数 | 数据集大小(MB) |
---|---|---|---|
Cyberarians Journal | 175 | 90,516 | 16.7 |
Alarabiya 3000 | 215 | 76,531 | 10.2 |
Almajalla Alordoniyya lillmaktabaat wa alma’loomaat | 73 | 58,884 | 5.61 |
E’lam (AFLI) | 54 | 38,444 | 4.54 |
Dirasaat alma’loomaat | 50 | 35,277 | 6.07 |
Diraasaat Arabiya fi elmaktabaat wa ‘elm alma’loomaat | 45 | 33,731 | 4.92 |
Maktabaat dot net | 62 | 24,102 | 1.84 |
总计:
- 文章数量:674
- 总词数:357,485
- 数据集大小:49.88 MB

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
CrowdHuman
CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。
github 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
Stanford Cars
Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。
OpenDataLab 收录