midas/www
收藏Hugging Face2022-02-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/midas/www
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于评估从英文科学文章摘要中提取和生成关键词的技术。数据集中包含1330个文档,每个文档都有唯一的标识符、文档内容、BIO标签、提取的关键词和抽象的关键词。数据集的测试分割包含1330个数据点。
提供机构:
midas
原始信息汇总
数据集概述
该数据集用于从英文科学文章的摘要中评估关键短语提取和生成技术。更多关于数据集的详细信息请参考原始论文 - https://aclanthology.org/D14-1150/
数据集结构
统计信息
测试集摘要关键短语长度统计
| Test | |
|---|---|
| Single word | 28.21% |
| Two words | 47.65% |
| Three words | 15.20% |
| Four words | 8.04% |
| Five words | 0.65% |
| Six words | 0.12% |
| Seven words | 0.05% |
| Eight words | 0.05% |
测试集提取关键短语长度统计
| Test | |
|---|---|
| Single word | 44.09% |
| Two words | 48.07% |
| Three words | 7.20% |
| Four words | 0.45% |
| Five words | 0.16% |
数据集总体统计
| Type of Analysis | Test |
|---|---|
| Annotator Type | Authors and Readers |
| Document Type | Scientific Articles |
| No. of Documents | 1330 |
| Avg. Document length (words) | 163.51 |
| Max Document length (words) | 587 |
| Max no. of abstractive keyphrases in a document | 13 |
| Min no. of abstractive keyphrases in a document | 0 |
| Avg. no. of abstractive keyphrases per document | 2.98 |
| Max no. of extractive keyphrases in a document | 9 |
| Min no. of extractive keyphrases in a document | 0 |
| Avg. no. of extractive keyphrases per document | 1.81 |
数据字段
- id: 文档的唯一标识符。
- document: 文档中的单词列表,以空格分隔。
- doc_bio_tags: 文档中每个单词的BIO标签。B表示关键短语的开始,I表示关键短语内部,O表示非关键短语部分。
- extractive_keyphrases: 所有存在的关键短语列表。
- abstractive_keyphrase: 所有不存在的关键短语列表。
数据分割
| Split | #datapoints |
|---|---|
| Test | 1330 |
使用示例
完整数据集
python from datasets import load_dataset
获取完整数据集
dataset = load_dataset("midas/www", "raw")
从测试集分割中采样
print("测试数据集分割中的样本") test_sample = dataset["test"][0] print("样本中的字段: ", [key for key in test_sample.keys()]) print("分词后的文档: ", test_sample["document"]) print("文档BIO标签: ", test_sample["doc_bio_tags"]) print("提取/存在的关键短语: ", test_sample["extractive_keyphrases"]) print("抽象/不存在的关键短语: ", test_sample["abstractive_keyphrases"]) print("
")
关键短语提取
python from datasets import load_dataset
仅获取关键短语提取数据集
dataset = load_dataset("midas/www", "extraction")
print("关键短语提取样本")
从测试集分割中采样
print("测试数据集分割中的样本") test_sample = dataset["test"][0] print("样本中的字段: ", [key for key in test_sample.keys()]) print("分词后的文档: ", test_sample["document"]) print("文档BIO标签: ", test_sample["doc_bio_tags"]) print("
")
关键短语生成
python
仅获取关键短语生成数据集
dataset = load_dataset("midas/www", "generation")
print("关键短语生成样本")
从测试集分割中采样
print("测试数据集分割中的样本") test_sample = dataset["test"][0] print("样本中的字段: ", [key for key in test_sample.keys()]) print("分词后的文档: ", test_sample["document"]) print("提取/存在的关键短语: ", test_sample["extractive_keyphrases"]) print("抽象/不存在的关键短语: ", test_sample["abstractive_keyphrases"]) print("
")



