CohereForAI/aya_collection|多语言处理数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 名称: Aya Collection
- 许可证: Apache-2.0
- 大小类别: 100M<n<1B
- 任务类别:
- 文本分类
- 摘要生成
- 翻译
语言支持
数据集支持多种语言,包括但不限于:
- ace, afr, amh, ara, aze, ban, bbc, bel, bem, ben, bjn, bul, cat, ceb, ces, cym, dan, deu, ell, eng, epo, est, eus, fil, fin, fon, fra, gla, gle, glg, guj, hat, hau, heb, hin, hrv, hun, hye, ibo, ind, isl, ita, jav, jpn, kan, kas, kat, kau, kaz, khm, kin, kir, kor, kur, lao, lav, lij, lit, ltz, mad, mal, man, mar, min, mkd, mlg, mlt, mon, mri, msa, mya, nep, nij, nld, nor, nso, nya, pan, pes, pol, por, pus, ron, rus, sin, slk, slv, smo, sna, snd, som, sot, spa, sqi, srp, sun, swa, swe, tam, taq, tel, tgk, tha, tur, twi, ukr, urd, uzb, vie, wol, xho, yid, yor, zho, zul
数据集结构
数据集包含多个子数据集,每个子数据集具有以下特征:
- id: int64
- inputs: string
- targets: string
- dataset_name: string
- sub_dataset_name: string
- task_type: string
- template_id: int64
- language: string
- split: string
- script: string
子数据集详情
以下是部分子数据集的具体信息:
-
aya_dataset
- 训练集: 202364个样本,总大小245523658字节
- 下载大小: 134230030字节
-
templated_afriqa
- 测试集: 6834个样本,总大小1053208.88字节
- 训练集: 5100个样本,总大小785976.78字节
- 验证集: 5158个样本,总大小794915.34字节
- 下载大小: 945238字节
- 数据集总大小: 2634101.0字节
-
templated_hindi_headline
- 测试集: 23452个样本,总大小228788501.13字节
- 训练集: 94217个样本,总大小919144047.87字节
- 下载大小: 243324488字节
- 数据集总大小: 1147932549.0字节
-
templated_hindi_news
- 测试集: 10655个样本,总大小109524809.12字节
- 训练集: 42524个样本,总大小437112433.88字节
- 下载大小: 112865381字节
- 数据集总大小: 546637243.0字节
-
templated_japanese_instruct
- 训练集: 2463624个样本,总大小1345341895字节
- 下载大小: 580330810字节
- 数据集总大小: 1345341895字节
-
templated_soda
- 测试集: 595872个样本,总大小487742788.93字节
- 训练集: 3077721个样本,总大小2519225981.57字节
- 验证集: 585384个样本,总大小479157981.50字节
- 下载大小: 1668121549字节
- 数据集总大小: 3486126752.0字节
此概述提供了数据集的基本信息、语言支持、结构以及部分子数据集的详细信息。

Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录