taln-ls2n/termith-eval
收藏Hugging Face2022-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taln-ls2n/termith-eval
下载链接
链接失效反馈官方服务:
资源简介:
TermITH-Eval是一个用于关键词提取和生成模型基准测试的数据集。该数据集包含400篇法文科学论文的摘要,这些摘要来自法国科学和技术信息研究所的FRANCIS和PASCAL数据库。关键词由专业索引员在非受控环境下标注,并根据PRMU方案对参考关键词进行了分类。数据集还提供了文本预处理和词干提取的详细信息。
提供机构:
taln-ls2n
原始信息汇总
TermITH-Eval Benchmark Dataset for Keyphrase Generation
概述
TermITH-Eval是一个用于评估关键短语提取和生成模型的基准数据集。该数据集包含400篇法语科学论文的摘要,这些摘要来自法国科学和技术信息研究所(Inist)的FRANCIS和PASCAL数据库。关键短语由专业索引员在非受控环境中标注,不限于叙词表条目。
数据集内容和统计
数据集包含一个测试分割,具体统计如下:
| 分割 | 文档数 | 平均单词数 | 平均关键短语数 | 百分比(Present) | 百分比(Reordered) | 百分比(Mixed) | 百分比(Unseen) |
|---|---|---|---|---|---|---|---|
| 测试 | 399 | 156.9 | 11.81 | 40.60 | 7.32 | 19.28 | 32.80 |
数据集提供以下数据字段:
- id: 文档的唯一标识符。
- title: 文档标题。
- abstract: 文档摘要。
- keyphrases: 参考关键短语列表。
- prmu: 参考关键短语的<u>P</u>resent-<u>R</u>eordered-<u>M</u>ixed-<u>U</u>nseen类别列表。
- category: 文档类别,如化学、考古学、语言学和信息科学。
数据处理
文本预处理(分词)使用spacy的fr_core_news_sm模型进行,特别规则避免分割带有连字符的单词。参考关键短语匹配源文本之前应用了Snowball法语词干提取器。



