five

expertai/BUSTER

收藏
Hugging Face2024-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/expertai/BUSTER
下载链接
链接失效反馈
官方服务:
资源简介:
BUSTER是一个用于业务交易实体识别(ER)的基准数据集,包含与业务交易相关的实体。数据集包括一个包含3779个手动注释文档的金标准语料库,这些文档被随机分为5个折叠,以及一个包含6196个自动注释文档的银标准语料库,这些文档是由模型优化的RoBERTa系统生成的。数据集的特性包括文档ID、文本、标记和标签。数据集的下载大小为47212140字节,总大小为179911598字节。
提供机构:
expertai
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: Apache 2.0
  • 数据集大小: 10K<n<100K
  • 任务类别: 词性标注
  • 标签: 金融

数据集配置

  • 配置名称: default
  • 数据文件:
    • FOLD_1: data/FOLD_1-*
    • FOLD_2: data/FOLD_2-*
    • FOLD_3: data/FOLD_3-*
    • FOLD_4: data/FOLD_4-*
    • FOLD_5: data/FOLD_5-*
    • SILVER: data/SILVER-*

数据集信息

  • 特征:

    • document_id: 字符串
    • text: 字符串
    • tokens: 字符串序列
    • labels: 字符串序列
  • 分割:

    • FOLD_1: 753个样本, 13597946字节
    • FOLD_2: 759个样本, 13477878字节
    • FOLD_3: 758个样本, 13602552字节
    • FOLD_4: 755个样本, 13834760字节
    • FOLD_5: 754个样本, 13632431字节
    • SILVER: 6196个样本, 111769291字节
  • 下载大小: 47212151字节

  • 数据集大小: 179914858字节

数据集描述

  • 名称: BUSTER
  • 描述: BUSTER是一个与商业交易相关的实体识别(ER)基准数据集。它包含3779个手动标注的金融交易文档,随机分为5个折叠,以及一个由模型优化的RoBERTa系统自动标注的6196个文档的银色语料库。

数据分割统计

  • 文档数量:

    • Gold:
      • fold 1: 753
      • fold 2: 759
      • fold 3: 758
      • fold 4: 755
      • fold 5: 754
      • Total: 3779
    • Silver: 6196
  • 标记数量:

    • Gold:
      • fold 1: 685K
      • fold 2: 680K
      • fold 3: 687K
      • fold 4: 697K
      • fold 5: 688K
      • Total: 3437K
    • Silver: 5647K
  • 注释数量:

    • Gold:
      • fold 1: 4119
      • fold 2: 4267
      • fold 3: 4100
      • fold 4: 4103
      • fold 5: 4163
      • Total: 20752
    • Silver: 33272
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作