five

taln-ls2n/wikinews-fr-100

收藏
Hugging Face2022-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taln-ls2n/wikinews-fr-100
下载链接
链接失效反馈
官方服务:
资源简介:
Wikinews-fr-100是一个用于评估关键词提取和生成模型的基准数据集。该数据集包含100篇来自Wikinews的法语新闻文章,关键词由计算机科学专业的学生在非受控环境中标注。数据集还采用了PRMU分类方案对关键词进行分类,并使用了spacy和nltk进行文本预处理。数据集的统计信息包括文档数量、单词数量、关键词数量及其分类比例。
提供机构:
taln-ls2n
原始信息汇总

Wikinews-fr-100 数据集概述

基本信息

  • 语言: 法语 (fr)
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 任务类别: 文本挖掘, 文本生成
  • 任务ID: 关键短语生成, 关键短语提取
  • 大小类别: 小于1K
  • 美观名称: Wikinews-fr-100

数据集描述

Wikinews-fr-100 是一个用于基准测试关键短语提取和生成模型的数据集。该数据集包含100篇法语新闻文章,这些文章从 wikinews 收集而来。关键短语由计算机科学专业的学生读者在非受控环境中标注(即不限于词典条目)。

数据处理

  • 文本预处理: 使用 spacy (fr_core_news_sm 模型) 进行分词,特别规则避免分割带有连字符的单词。
  • 词干提取: 使用 nltk 提供的 Snowball 词干提取器实现。

数据集内容与统计

  • 测试分割: 包含100个文档,平均每个文档306.9个单词,9.64个关键短语。
  • 数据字段:
    • id: 文档的唯一标识符。
    • title: 文档标题。
    • abstract: 文档摘要。
    • keyphrases: 参考关键短语列表。
    • prmu: 参考关键短语的 <u>P</u>resent-<u>R</u>eordered-<u>M</u>ixed-<u>U</u>nseen 分类列表。

性能指标

  • 关键短语分类:
    • Present: 95.91%
    • Reordered: 1.40%
    • Mixed: 0.85%
    • Unseen: 1.84%
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作