five

ronaldahmed/scitechnews

收藏
Hugging Face2023-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ronaldahmed/scitechnews
下载链接
链接失效反馈
官方服务:
资源简介:
SciTechNews数据集由科学论文及其对应的新闻稿片段组成,数据来源于ACM TechNews。该数据集主要用于科学新闻领域的文本生成任务,特别是科学文章的新闻稿摘要生成。数据集包含科学文章的标题、摘要、正文、章节列表、章节名称以及作者信息,新闻稿的标题、正文和摘要。数据集的语言为英语,数据量在1K到10K之间。数据集的创建目的是为了支持自动科学新闻生成,帮助记者或研究人员更高效地撰写高质量的新闻内容。

The SciTechNews dataset comprises scientific papers and their corresponding press release snippets, sourced from ACM TechNews. This dataset is primarily intended for text generation tasks in the domain of scientific news, specifically press release summarization for scientific articles. It contains information including the title, abstract, main body, chapter list, chapter names, and author details of scientific papers, as well as the title, body, and abstract of the press releases. The dataset is in English, with a sample size ranging from 1,000 to 10,000. It was created to support automatic scientific news generation, helping journalists and researchers write high-quality news content more efficiently.
提供机构:
ronaldahmed
原始信息汇总

数据集卡片 scitechnews

数据集描述

数据集概述

SciTechNews 数据集包含科学论文及其对应的从 ACM TechNews 挖掘的新闻发布片段。ACM TechNews 是一个新闻聚合器,定期提供关于计算机科学、工程、天体物理学、生物学等领域的科学成就和技术的新闻摘要。

支持的任务和排行榜

该数据集是为科学新闻任务定制的,这是一个文本到文本的任务,输入是科学文章,输出是新闻发布摘要。此外,该版本还包括新闻发布和科学文章的附加信息,如新闻发布文章正文、标题、作者姓名和所属机构。

语言

英语

数据集结构

数据字段

json { "id": String, # 唯一ID "pr-title": String, # ACMTECHNEWS网站中的标题 "pr-article": String, # 新闻发布文章 "pr-summary": String, # 新闻发布摘要 "sc-title": String, # 科学文章标题 "sc-abstract": String, # 科学文章摘要 "sc-article": String, # 科学文章的摘要和章节连接 "sc-sections": List[String], # 科学文章的章节列表 "sc-section_names": List[String] # 科学文章的章节名称列表 "sc-authors": List[String] # 作者姓名和所属机构列表,格式为<name> | <affil> }

新闻发布文章 (pr-article) 和科学文章的章节 (sc-sections) 中的段落由 分隔。数据未进行句子或单词分词。注意,字段 sc-article 包括文章的摘要及其章节。

示例实例

json { "id": 37, "pr-title": "Whats in a Developers Name?", "pr-article": "In one of the most memorable speeches from William Shakespeares play, Romeo and Juliet , Juliet ponders, " Whats in a name? That which...", "pr-summary": "Researchers at the University of Waterloos Cheriton School of Computer Science in Canada found a software developers perceived race and ethnicity,...", "sc-title": "On the Relationship Between the Developers Perceptible Race and Ethnicity and the Evaluation of Contributions in OSS", "sc-abstract": "Context: Open Source Software (OSS) projects are typically the result of collective efforts performed by developers with different backgrounds...", "sc-articles": "Context: Open Source Software (OSS) projects are typically the result of .... In any line of work, diversity regarding race, gender, personality...", "sc-sections": ["In any line of work, diversity regarding race, gender, personality...","To what extent is the submitters perceptible race and ethnicity related to...",...], "sc-section_names": ["INTRODUCTION", "RQ1:", "RQ2:", "RELATED WORK",...], "sc-authors": ["Reza Nadri | Cheriton School of Computer Science, University of Waterloo", "Gema Rodriguez Perez | Cheriton School of ...",...] }

数据分割

训练/验证/测试集的实例数量分别为 26,368/1431/1000。注意,训练集仅包含新闻发布数据 (pr-*),而验证和测试集包含所有字段。

数据集创建

策划理由

科学新闻指的是涵盖与不同科学研究领域相关主题的新闻内容。它在促进公众对科学的理解和影响方面发挥着重要作用。然而,科学文献的庞大数量使得记者难以报道每一个重要发现,可能导致许多被忽视。我们构建了一个新的开放访问高质量数据集,用于自动科学新闻,涵盖广泛的科学学科。

源数据

新闻发布片段从 ACM TechNews 挖掘,其相应的科学文章从知名的开放访问期刊和会议论文集中挖掘。

初始数据收集和规范化

我们收集了 1999 年至 2021 年间的存档 TechNews 片段,并将它们与其相应的新闻发布文章链接。然后,我们解析每篇新闻文章,查找其报道的科学文章的链接。我们丢弃了在新闻发布中发现多个科学文章链接的样本。最后,科学文章以 PDF 格式检索并使用 Grobid 处理。按照先前科学摘要数据集的收集策略,我们检索章节标题名称,并将文章文本分为章节。我们还提取了标题和所有作者姓名及所属机构。

源语言生产者

该数据集中的所有文本(标题、摘要和文章正文)均由人类生产。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作