taln-ls2n/wikinews-fr-100
收藏Hugging Face2022-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taln-ls2n/wikinews-fr-100
下载链接
链接失效反馈官方服务:
资源简介:
Wikinews-fr-100是一个用于评估关键词提取和生成模型的基准数据集。该数据集包含100篇来自Wikinews的法语新闻文章,关键词由计算机科学专业的学生在非受控环境中标注。数据集还采用了PRMU分类方案对关键词进行分类,并使用了spacy和nltk进行文本预处理。数据集的统计信息包括文档数量、单词数量、关键词数量及其分类比例。
提供机构:
taln-ls2n
原始信息汇总
Wikinews-fr-100 数据集概述
基本信息
- 语言: 法语 (fr)
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 任务类别: 文本挖掘, 文本生成
- 任务ID: 关键短语生成, 关键短语提取
- 大小类别: 小于1K
- 美观名称: Wikinews-fr-100
数据集描述
Wikinews-fr-100 是一个用于基准测试关键短语提取和生成模型的数据集。该数据集包含100篇法语新闻文章,这些文章从 wikinews 收集而来。关键短语由计算机科学专业的学生读者在非受控环境中标注(即不限于词典条目)。
数据处理
- 文本预处理: 使用
spacy(fr_core_news_sm模型) 进行分词,特别规则避免分割带有连字符的单词。 - 词干提取: 使用
nltk提供的 Snowball 词干提取器实现。
数据集内容与统计
- 测试分割: 包含100个文档,平均每个文档306.9个单词,9.64个关键短语。
- 数据字段:
- id: 文档的唯一标识符。
- title: 文档标题。
- abstract: 文档摘要。
- keyphrases: 参考关键短语列表。
- prmu: 参考关键短语的 <u>P</u>resent-<u>R</u>eordered-<u>M</u>ixed-<u>U</u>nseen 分类列表。
性能指标
- 关键短语分类:
- Present: 95.91%
- Reordered: 1.40%
- Mixed: 0.85%
- Unseen: 1.84%



