five

Alizee/wikiner_fr_mixed_caps

收藏
Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Alizee/wikiner_fr_mixed_caps
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - fr size_categories: - 100K<n<1M task_categories: - token-classification pretty_name: wikiner_fr dataset_info: features: - name: id dtype: int64 - name: tokens sequence: string - name: ner_tags sequence: class_label: names: '0': O '1': LOC '2': PER '3': MISC '4': ORG splits: - name: train num_bytes: 54139057 num_examples: 120060 - name: test num_bytes: 5952227 num_examples: 13393 download_size: 15572314 dataset_size: 60091284 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- # Dataset Card for "wikiner_fr_mixed_caps" This is an update on the dataset [Jean-Baptiste/wikiner_fr](https://huggingface.co/datasets/Jean-Baptiste/wikiner_fr) with: - removal of duplicated examples and leakage - random de-capitalization of words (20%) You can see the code to create the changes in the script `update_dataset.py` in the repository. Dataset Description (reproduced from original repo): - **Homepage:** https://metatext.io/datasets/wikiner - **Repository:** - **Paper:** https://www.sciencedirect.com/science/article/pii/S0004370212000276?via%3Dihub - **Leaderboard:** - **Point of Contact:**
提供机构:
Alizee
原始信息汇总

数据集概述

基本信息

  • 语言: 法语
  • 大小类别: 100K<n<1M
  • 任务类别: 词性标注
  • 美观名称: wikiner_fr

数据集特征

  • 特征:
    • id: 数据类型为int64
    • tokens: 序列类型为字符串
    • ner_tags: 序列类型,包含类别标签
      • 标签名称:
        • 0: O
        • 1: LOC
        • 2: PER
        • 3: MISC
        • 4: ORG

数据集分割

  • 训练集:
    • 字节数: 54139057
    • 样本数: 120060
  • 测试集:
    • 字节数: 5952227
    • 样本数: 13393

数据集大小

  • 下载大小: 15572314
  • 数据集大小: 60091284

配置

  • 配置名称: default
  • 数据文件:
    • 训练集路径: data/train-*
    • 测试集路径: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作