taln-ls2n/wikinews-fr-100

Name: taln-ls2n/wikinews-fr-100
Creator: taln-ls2n
Published: 2022-09-23 07:38:18
License: 暂无描述

Hugging Face2022-09-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/taln-ls2n/wikinews-fr-100

下载链接

链接失效反馈

官方服务：

资源简介：

Wikinews-fr-100是一个用于评估关键词提取和生成模型的基准数据集。该数据集包含100篇来自Wikinews的法语新闻文章，关键词由计算机科学专业的学生在非受控环境中标注。数据集还采用了PRMU分类方案对关键词进行分类，并使用了spacy和nltk进行文本预处理。数据集的统计信息包括文档数量、单词数量、关键词数量及其分类比例。

提供机构：

taln-ls2n

原始信息汇总

Wikinews-fr-100 数据集概述

基本信息

语言: 法语 (fr)
许可证: CC-BY-4.0
多语言性: 单语种
任务类别: 文本挖掘, 文本生成
任务ID: 关键短语生成, 关键短语提取
大小类别: 小于1K
美观名称: Wikinews-fr-100

数据集描述

Wikinews-fr-100 是一个用于基准测试关键短语提取和生成模型的数据集。该数据集包含100篇法语新闻文章，这些文章从 wikinews 收集而来。关键短语由计算机科学专业的学生读者在非受控环境中标注（即不限于词典条目）。

数据处理

文本预处理: 使用 spacy (fr_core_news_sm 模型) 进行分词，特别规则避免分割带有连字符的单词。
词干提取: 使用 nltk 提供的 Snowball 词干提取器实现。

数据集内容与统计

测试分割: 包含100个文档，平均每个文档306.9个单词，9.64个关键短语。
数据字段:
- id: 文档的唯一标识符。
- title: 文档标题。
- abstract: 文档摘要。
- keyphrases: 参考关键短语列表。
- prmu: 参考关键短语的 Present-Reordered-Mixed-Unseen 分类列表。

性能指标

关键短语分类:
- Present: 95.91%
- Reordered: 1.40%
- Mixed: 0.85%
- Unseen: 1.84%

5,000+

优质数据集

54 个

任务类型

进入经典数据集