ronaldahmed/scitechnews
收藏数据集卡片 scitechnews
数据集描述
数据集概述
SciTechNews 数据集包含科学论文及其对应的从 ACM TechNews 挖掘的新闻发布片段。ACM TechNews 是一个新闻聚合器,定期提供关于计算机科学、工程、天体物理学、生物学等领域的科学成就和技术的新闻摘要。
支持的任务和排行榜
该数据集是为科学新闻任务定制的,这是一个文本到文本的任务,输入是科学文章,输出是新闻发布摘要。此外,该版本还包括新闻发布和科学文章的附加信息,如新闻发布文章正文、标题、作者姓名和所属机构。
语言
英语
数据集结构
数据字段
json { "id": String, # 唯一ID "pr-title": String, # ACMTECHNEWS网站中的标题 "pr-article": String, # 新闻发布文章 "pr-summary": String, # 新闻发布摘要 "sc-title": String, # 科学文章标题 "sc-abstract": String, # 科学文章摘要 "sc-article": String, # 科学文章的摘要和章节连接 "sc-sections": List[String], # 科学文章的章节列表 "sc-section_names": List[String] # 科学文章的章节名称列表 "sc-authors": List[String] # 作者姓名和所属机构列表,格式为<name> | <affil> }
新闻发布文章 (pr-article) 和科学文章的章节 (sc-sections) 中的段落由 分隔。数据未进行句子或单词分词。注意,字段 sc-article 包括文章的摘要及其章节。
示例实例
json { "id": 37, "pr-title": "Whats in a Developers Name?", "pr-article": "In one of the most memorable speeches from William Shakespeares play, Romeo and Juliet , Juliet ponders, " Whats in a name? That which...", "pr-summary": "Researchers at the University of Waterloos Cheriton School of Computer Science in Canada found a software developers perceived race and ethnicity,...", "sc-title": "On the Relationship Between the Developers Perceptible Race and Ethnicity and the Evaluation of Contributions in OSS", "sc-abstract": "Context: Open Source Software (OSS) projects are typically the result of collective efforts performed by developers with different backgrounds...", "sc-articles": "Context: Open Source Software (OSS) projects are typically the result of .... In any line of work, diversity regarding race, gender, personality...", "sc-sections": ["In any line of work, diversity regarding race, gender, personality...","To what extent is the submitters perceptible race and ethnicity related to...",...], "sc-section_names": ["INTRODUCTION", "RQ1:", "RQ2:", "RELATED WORK",...], "sc-authors": ["Reza Nadri | Cheriton School of Computer Science, University of Waterloo", "Gema Rodriguez Perez | Cheriton School of ...",...] }
数据分割
训练/验证/测试集的实例数量分别为 26,368/1431/1000。注意,训练集仅包含新闻发布数据 (pr-*),而验证和测试集包含所有字段。
数据集创建
策划理由
科学新闻指的是涵盖与不同科学研究领域相关主题的新闻内容。它在促进公众对科学的理解和影响方面发挥着重要作用。然而,科学文献的庞大数量使得记者难以报道每一个重要发现,可能导致许多被忽视。我们构建了一个新的开放访问高质量数据集,用于自动科学新闻,涵盖广泛的科学学科。
源数据
新闻发布片段从 ACM TechNews 挖掘,其相应的科学文章从知名的开放访问期刊和会议论文集中挖掘。
初始数据收集和规范化
我们收集了 1999 年至 2021 年间的存档 TechNews 片段,并将它们与其相应的新闻发布文章链接。然后,我们解析每篇新闻文章,查找其报道的科学文章的链接。我们丢弃了在新闻发布中发现多个科学文章链接的样本。最后,科学文章以 PDF 格式检索并使用 Grobid 处理。按照先前科学摘要数据集的收集策略,我们检索章节标题名称,并将文章文本分为章节。我们还提取了标题和所有作者姓名及所属机构。
源语言生产者
该数据集中的所有文本(标题、摘要和文章正文)均由人类生产。



