taln-ls2n/termith-eval

Name: taln-ls2n/termith-eval
Creator: taln-ls2n
Published: 2022-09-23 07:49:04
License: 暂无描述

Hugging Face2022-09-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/taln-ls2n/termith-eval

下载链接

链接失效反馈

官方服务：

资源简介：

TermITH-Eval是一个用于关键词提取和生成模型基准测试的数据集。该数据集包含400篇法文科学论文的摘要，这些摘要来自法国科学和技术信息研究所的FRANCIS和PASCAL数据库。关键词由专业索引员在非受控环境下标注，并根据PRMU方案对参考关键词进行了分类。数据集还提供了文本预处理和词干提取的详细信息。

提供机构：

taln-ls2n

原始信息汇总

TermITH-Eval Benchmark Dataset for Keyphrase Generation

概述

TermITH-Eval是一个用于评估关键短语提取和生成模型的基准数据集。该数据集包含400篇法语科学论文的摘要，这些摘要来自法国科学和技术信息研究所（Inist）的FRANCIS和PASCAL数据库。关键短语由专业索引员在非受控环境中标注，不限于叙词表条目。

数据集内容和统计

数据集包含一个测试分割，具体统计如下：

分割	文档数	平均单词数	平均关键短语数	百分比（Present）	百分比（Reordered）	百分比（Mixed）	百分比（Unseen）
测试	399	156.9	11.81	40.60	7.32	19.28	32.80

数据集提供以下数据字段：

id: 文档的唯一标识符。
title: 文档标题。
abstract: 文档摘要。
keyphrases: 参考关键短语列表。
prmu: 参考关键短语的Present-Reordered-Mixed-Unseen类别列表。
category: 文档类别，如化学、考古学、语言学和信息科学。

数据处理

文本预处理（分词）使用spacy的fr_core_news_sm模型进行，特别规则避免分割带有连字符的单词。参考关键短语匹配源文本之前应用了Snowball法语词干提取器。

5,000+

优质数据集

54 个

任务类型

进入经典数据集