expertai/BUSTER
收藏Hugging Face2024-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/expertai/BUSTER
下载链接
链接失效反馈官方服务:
资源简介:
BUSTER是一个用于业务交易实体识别(ER)的基准数据集,包含与业务交易相关的实体。数据集包括一个包含3779个手动注释文档的金标准语料库,这些文档被随机分为5个折叠,以及一个包含6196个自动注释文档的银标准语料库,这些文档是由模型优化的RoBERTa系统生成的。数据集的特性包括文档ID、文本、标记和标签。数据集的下载大小为47212140字节,总大小为179911598字节。
提供机构:
expertai
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: Apache 2.0
- 数据集大小: 10K<n<100K
- 任务类别: 词性标注
- 标签: 金融
数据集配置
- 配置名称: default
- 数据文件:
FOLD_1: data/FOLD_1-*FOLD_2: data/FOLD_2-*FOLD_3: data/FOLD_3-*FOLD_4: data/FOLD_4-*FOLD_5: data/FOLD_5-*SILVER: data/SILVER-*
数据集信息
-
特征:
document_id: 字符串text: 字符串tokens: 字符串序列labels: 字符串序列
-
分割:
FOLD_1: 753个样本, 13597946字节FOLD_2: 759个样本, 13477878字节FOLD_3: 758个样本, 13602552字节FOLD_4: 755个样本, 13834760字节FOLD_5: 754个样本, 13632431字节SILVER: 6196个样本, 111769291字节
-
下载大小: 47212151字节
-
数据集大小: 179914858字节
数据集描述
- 名称: BUSTER
- 描述: BUSTER是一个与商业交易相关的实体识别(ER)基准数据集。它包含3779个手动标注的金融交易文档,随机分为5个折叠,以及一个由模型优化的RoBERTa系统自动标注的6196个文档的银色语料库。
数据分割统计
-
文档数量:
Gold:fold 1: 753fold 2: 759fold 3: 758fold 4: 755fold 5: 754Total: 3779
Silver: 6196
-
标记数量:
Gold:fold 1: 685Kfold 2: 680Kfold 3: 687Kfold 4: 697Kfold 5: 688KTotal: 3437K
Silver: 5647K
-
注释数量:
Gold:fold 1: 4119fold 2: 4267fold 3: 4100fold 4: 4103fold 5: 4163Total: 20752
Silver: 33272



