hlhdatscience/es-ner-massive|命名实体识别数据集|西班牙语数据集
收藏数据集卡片 for es-ner-massive
数据集详情
数据集描述
es-ner-massive 数据集是 tner/wikineural、conll2002 和 polyglot_ner 三个数据集的组合,旨在用于命名实体识别(NER)任务。标签经过精心策划,采用基于跨度的编码方式,编码约定如下:
python encodings_dictionary = { "O": 0, "PER": 1, "ORG": 2, "LOC": 3, "MISC": 4 }
数据集结构
特征
- Tokens: 序列,类型为字符串
- Tags: 序列,类型为 int64
- Tags_string: 序列,类型为字符串
- Original_source: 类型为字符串
分割
- train: 字节数为 276428315,样本数为 471343
- test: 字节数为 6419858,样本数为 11136
- validation: 字节数为 6345480,样本数为 11456
大小
- 下载大小: 54821843 字节
- 数据集大小: 289193653 字节
配置
- config_name: default
- data_files:
- train: data/train-*
- test: data/test-*
- validation: data/validation-*
任务类别
- token-classification
语言
- 西班牙语
大小类别
- 100K<n<1M
许可证
- apache-2.0
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
CIFAR-10
CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。
OpenDataLab 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录