rungalileo/mit_movies_fixed_connll_format
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rungalileo/mit_movies_fixed_connll_format
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为MIT_movies_fixed,是一个用于命名实体识别(NER)任务的英文单语数据集。数据集由众包方式创建,包含约10K到100K的数据样本。数据集的主要目的是展示Galileo作为数据智能平台的能力,通过识别并修复原始MIT movies数据集中的错误,重新标注了4%的样本。数据集结构为每个样本以空行分隔,每行以制表符分隔,包含单词及其对应的NER标签,使用BIOES标注方案。数据集分为训练集和测试集,训练集约9700个样本,测试集约2700个样本。数据集包含12个类别,如ACTOR、YEAR、TITLE等。
This dataset is named MIT_movies_fixed, which is an English monolingual dataset for named entity recognition (NER) tasks. It was created via crowdsourcing and contains approximately 10,000 to 100,000 data samples. Its primary objective is to showcase the capabilities of Galileo as a data intelligence platform: it re-annotated 4% of the samples by identifying and fixing errors in the original MIT movies dataset. The dataset structure is specified as follows: each sample is separated by a blank line, each line is split by a tab character, containing a word and its corresponding NER label, adopting the BIOES annotation scheme. The dataset is split into a training set and a test set, with approximately 9,700 samples in the training set and 2,700 samples in the test set. It includes 12 categories such as ACTOR, YEAR, TITLE, and others.
提供机构:
rungalileo
原始信息汇总
数据集概述
数据集名称
- 名称: MIT_movies_fixed
数据集属性
- 语言: 英语 (en)
- 许可证: 未知
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别: 词性标注
- 任务ID: 命名实体识别
数据集结构
- 数据实例: 每个样本以空行分隔,每行以制表符分隔,包含单词及其对应的NER标签。使用BIOES标签方案。
- 数据分割: 分为训练集和测试集,训练集约9700样本,测试集约2700样本。
- 数据类别: 包含12个类别,如ACTOR, YEAR, TITLE等,部分类别具有高语义重叠。
数据集创建
- 注释创建者: 众包
- 语言创建者: 众包
- 精选理由: 展示Galileo数据智能平台的能力,通过分析和修正原始MIT电影数据集中的关键错误模式,如注释错误和格式不当的样本。
数据使用考虑
- 社会影响: 未提供详细信息
- 偏见讨论: 未提供详细信息
- 其他已知限制: 未提供详细信息
附加信息
- 数据集管理者: 未提供详细信息
- 许可信息: 未提供详细信息
- 引用信息: 未提供详细信息



