Gooogr/pie_idioms

Name: Gooogr/pie_idioms
Creator: Gooogr
Published: 2023-07-19 12:22:56
License: 暂无描述

Hugging Face2023-07-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Gooogr/pie_idioms

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含57,170个潜在习语表达（PIEs）的语料库，基于英国国家语料库，专为命名实体识别（NER）任务准备。每个实例包括一个习语字符串、上下文中的分词文本、对应的BIO标签和一个布尔标签is_pie，用于确定在给定上下文中是否被视为习语。数据集分为训练集、验证集和测试集，分别包含45,736、5,717和5,717个实例。数据来源于MAGPIE和PIE两个语料库，并遵循Creative Commons Attribution-ShareAlike 4.0 International License许可。

提供机构：

Gooogr

原始信息汇总

数据集概述

数据集基本信息

许可证: cc-by-4.0
数据集名称: Corpus of potentially idiomatic expressions (PIEs)
数据集大小: 10K<n<100K
语言: 英语
任务类别: 词元分类
标签: PIE, idioms

数据集结构

数据特征

idiom: 字符串类型
is_pie: 布尔类型
tokens: 字符串序列
ner_tags: 字符串序列，包含类别标签：
- 0: O
- 1: B-PIE
- 2: I-PIE

数据分割

训练集: 46090个实例，82950018字节
验证集: 5761个实例，10420303字节
测试集: 5762个实例，10376839字节

数据字段

idiom: 包含原始PIE的字符串
is_pie: 确定在给定上下文中PIE是否可视为习语的布尔标签
tokens: 包含PIE使用上下文的词标记字符串序列
ner_tags: 对应词标记的BIO标签

数据集创建

源数据

MAGPIE corpus: 用于数据收集和规范化
PIE English corpus: 用于数据收集和规范化

许可证信息

许可证: Creative Commons Attribution-ShareAlike 4.0 International License

5,000+

优质数据集

54 个

任务类型

进入经典数据集