hlhdatscience/es-ner-massive|命名实体识别数据集|西班牙语数据集

hugging_face2024-03-20 更新2024-06-11 收录

命名实体识别

西班牙语

下载链接：

https://hf-mirror.com/datasets/hlhdatscience/es-ner-massive

下载链接

链接失效反馈

资源简介：

es-ner-massive数据集是tner/wikineural、conll2002和polyglot_ner三个数据集的组合，专为西班牙语的命名实体识别（NER）任务设计。该数据集的标签采用基于跨度的编码，遵循特定的编码约定。数据集旨在为预训练模型提供坚实的知识基础，以便进行基本的NER任务或转移学习操作。它适用于对预训练模型进行微调，以执行NER任务。数据集的语言为西班牙语，许可证为Apache-2.0。

提供机构：

hlhdatscience

原始信息汇总

数据集卡片 for es-ner-massive

数据集详情

数据集描述

es-ner-massive 数据集是 tner/wikineural、conll2002 和 polyglot_ner 三个数据集的组合，旨在用于命名实体识别（NER）任务。标签经过精心策划，采用基于跨度的编码方式，编码约定如下：

python encodings_dictionary = { "O": 0, "PER": 1, "ORG": 2, "LOC": 3, "MISC": 4 }

数据集结构

特征

Tokens: 序列，类型为字符串
Tags: 序列，类型为 int64
Tags_string: 序列，类型为字符串
Original_source: 类型为字符串

分割

train: 字节数为 276428315，样本数为 471343
test: 字节数为 6419858，样本数为 11136
validation: 字节数为 6345480，样本数为 11456

大小

下载大小: 54821843 字节
数据集大小: 289193653 字节

配置

config_name: default
data_files:
- train: data/train-*
- test: data/test-*
- validation: data/validation-*

任务类别

token-classification

语言

西班牙语

大小类别

100K<n<1M

许可证

apache-2.0

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成，每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像，但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间，训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录