pszemraj/scientific_lay_summarisation-plos-norm
收藏Hugging Face2023-06-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/scientific_lay_summarisation-plos-norm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是tomasg25/scientific_lay_summarization的修改版本,包含了经过预处理的科学通俗摘要。预处理包括修复标点符号和空格问题,并使用T5模型的tokenizer计算每个文本样本的token长度。数据集来源于PLOS期刊,主要用于摘要生成和文本生成任务。数据格式为Apache parquet,可以通过pandas或Hugging Face的datasets库加载。数据集包含训练集、测试集和验证集,每个集都包含文章、摘要、章节标题、关键词、年份、标题、文章长度和摘要长度等特征。
该数据集是tomasg25/scientific_lay_summarization的修改版本,包含了经过预处理的科学通俗摘要。预处理包括修复标点符号和空格问题,并使用T5模型的tokenizer计算每个文本样本的token长度。数据集来源于PLOS期刊,主要用于摘要生成和文本生成任务。数据格式为Apache parquet,可以通过pandas或Hugging Face的datasets库加载。数据集包含训练集、测试集和验证集,每个集都包含文章、摘要、章节标题、关键词、年份、标题、文章长度和摘要长度等特征。
提供机构:
pszemraj
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 摘要生成
- 文本到文本生成
- 语言:
- 英语
- 数据规模:
- 10K<n<100K
- 源数据集: tomasg25/scientific_lay_summarisation
数据处理
- 文本清洗:
- 对“article”和“summary”列中的文本进行了处理,确保标点符号和空格的一致性。
- 使用
fix_punct_whitespace函数处理文本,包括:- 去除标点符号前的空格(括号除外)
- 在标点符号后添加空格(括号除外)
- 处理括号周围的空格
- 处理引号周围的空格
- 处理数字中的逗号
- 分词:
- 使用T5分词器计算每个文本样本的标记长度。
- 使用
calculate_token_length函数对每个文本样本进行编码并返回标记数量。 - 将标记长度添加为数据框的新列。
数据格式
- 存储格式: Apache parquet
- 加载方式:
- 使用
pandas库或datasets库从Hugging Face transformers包加载。
- 使用
- 数据集结构:
- 训练集: 24773行
- 测试集: 1376行
- 验证集: 1376行
- 特征:
- article
- summary
- section_headings
- keywords
- year
- title
- article_length
- summary_length
使用示例
-
使用pandas加载: python import pandas as pd df = pd.read_parquet("scientific_lay_summarisation-plos-norm/train.parquet") print(df.info())
-
使用datasets加载: python from datasets import load_dataset dataset = load_dataset("pszemraj/scientific_lay_summarisation-plos-norm") train_set = dataset[train] for i in range(5): print(train_set[i])



