masakhane/masakhaner|命名实体识别数据集|非洲语言处理数据集
收藏数据集概述
数据集名称: MasakhaNER
语言:
- Amharic (am)
- Hausa (ha)
- Igbo (ig)
- Luganda (lg)
- Luo (luo)
- Nigerian-Pidgin (pcm)
- Kinyarwanda (rw)
- Swahili (sw)
- Wolof (wo)
- Yoruba (yo)
许可证: 未知
多语言性: 多语言
大小类别: 10K<n<100K
源数据集: 原始
任务类别: 词元分类
任务ID: 命名实体识别
数据集结构:
-
特征:
- id: 字符串类型
- tokens: 字符串序列
- ner_tags: 类别标签序列,包括O, B-PER, I-PER, B-ORG, I-ORG, B-LOC, I-LOC, B-DATE, I-DATE
-
分割:
- train: 训练集
- validation: 验证集
- test: 测试集
数据集大小:
语言 | 训练集 | 验证集 | 测试集 |
---|---|---|---|
Amharic | 1750 | 250 | 500 |
Hausa | 1912 | 276 | 552 |
Igbo | 2235 | 320 | 638 |
Kinyarwanda | 2116 | 302 | 605 |
Luganda | 1428 | 200 | 407 |
Luo | 644 | 92 | 186 |
Nigerian-Pidgin | 2124 | 306 | 600 |
Swahili | 2109 | 300 | 604 |
Wolof | 1871 | 267 | 539 |
Yoruba | 2171 | 305 | 645 |
下载大小与数据集大小:
语言 | 下载大小 | 数据集大小 |
---|---|---|
Amharic | 571951 | 916935 |
Hausa | 633372 | 1352322 |
Igbo | 515415 | 1081960 |
Kinyarwanda | 633024 | 1258382 |
Luganda | 445755 | 865038 |
Luo | 213281 | 446217 |
Nigerian-Pidgin | 572054 | 1257243 |
Swahili | 686313 | 1401791 |
Wolof | 364463 | 865095 |
Yoruba | 751510 | 1503675 |
任务: 命名实体识别 (NER),用于识别文本中的PER, ORG, LOC, DATE等实体。
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录