Computer Scientists Dataset

github2021-12-25 更新2024-05-31 收录

下载链接：

https://github.com/anmolagarwal999/Domain-specific-data-collection-from-structured-and-unstructured-sources

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从13个网站（包括Wikipedia、Google Scholar、DBLP等）收集的关于计算机科学家的数据，通过整合这些数据创建了一个高质量的表格数据集。

This dataset is compiled from data collected across 13 websites, including Wikipedia, Google Scholar, and DBLP, among others. By integrating these diverse sources, a high-quality tabular dataset concerning computer scientists has been established.

创建时间：

2021-12-23

原始信息汇总

数据集概述

项目目标

该项目旨在从互联网上检索并整合特定领域的文本数据，包括结构化信息源（如维基百科的infobox或《福布斯》表格）和非结构化源（如Britannica的传记）。目标是转换非结构化数据为JSON文件，其中行代表所选领域的“实体”，列（键值对）特定于实体。

数据集结构

essential_files/
- alias_mapping.json
- FINAL.json
- INITIAL_WIKI_SEED_NAMES_LIST.json
scrapers_and_crawlers/
- 包含所有用于抓取和爬取的代码。
analysis_merging_cleaning/
- 包含多个子目录，用于数据分析、合并和清洗。

数据源和采集方法

维基百科
- 通过谷歌搜索确定计算机科学家的列表。
- 使用“wptools”库提取所有可能的数据。
- 最终合并的唯一人物数量：3254。
research.com
- 从列表和个人资料页面抓取数据。
- 获取的属性包括姓名、排名、H指数、出版物数量等。
- 找到的人物数量：997。
Google Scholar
- 分为三种类型的人物：已有Google Scholar个人资料链接、已知Google Scholar ID、无现有映射。
- 获取的属性包括隶属关系、图像URL、个人网站链接、研究兴趣等。
- 人物数量：1800。
dblp
- 通过dblp搜索API识别个人资料页面。
- 获取的属性包括隶属关系、奖项、出版物列表等。
- 人物数量：2600。
Semantic Scholar
- 从Semantic Scholar提取新的属性，如对该科学家影响最大的作者等。
- 人物数量：115。
其他数据源
- 包括Best Schools Org、famouspeople.com、PANTHEON、Mathematics Genealogy Project、Academic Influence、WorldCat catalog、Wikiquote、VIAF等。

最终数据库属性列表

ire_person_name (4128)
ire_wiki_id (4128)
wikipedia_page_url (3469)
person_name (3469)
backlinks_to_other_wiki_pages (3469)
wikipedia_categories_associated_with (3469)
wiki_pages_accessible_from_person_wiki_page (3468)
person_gender (3425)
employer_orgs (3415)
person_job (3360)
institutions_educated_in (3020)
dblp_url_use (2847)

该数据集涵盖了广泛的属性，从个人详细信息到职业相关信息，以及与其他数据库的关联ID，为计算机科学领域的研究提供了丰富的数据资源。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程主要依赖于从互联网上检索和整合特定领域的文本数据，涵盖了结构化和非结构化信息源。通过使用Wikipedia、research.com、Google Scholar、dblp等多个数据源，团队提取了计算机科学家的相关信息，并将其转换为以实体为中心的JSON格式。数据集的构建过程包括从Wikipedia获取初始名单、提取关键属性、合并不同数据源的信息，并通过自动化工具和手动筛选确保数据的准确性和完整性。

使用方法

该数据集可用于计算机科学领域的学术研究、人物关系网络分析、学术影响力评估等任务。研究人员可以通过JSON格式的数据文件轻松访问和分析每个实体的属性信息。数据集中的ID映射功能（如Wikipedia ID、Google Scholar ID）使得跨数据源的整合和分析更加便捷。此外，数据集还提供了丰富的元数据，便于用户进行数据清洗、筛选和扩展。

背景与挑战

背景概述

Computer Scientists Dataset是由Anmol Agarwal、Sanchit Arora、Ritvik Garg和Nisarg Seth等研究人员于2023年创建的，旨在从互联网上检索并整合特定领域的大量文本数据。该数据集的核心研究问题是如何从结构化和非结构化数据源中提取计算机科学家的相关信息，并将其转换为统一的JSON格式。通过整合来自维基百科、Research.com、Google Scholar、DBLP等多个数据源的信息，该数据集为计算机科学领域的研究人员提供了一个全面的科学家信息库，涵盖了个人背景、学术成就、出版物等多个维度。该数据集的创建不仅填补了该领域现有数据集的空白，还为后续的学术研究、知识图谱构建等任务提供了重要支持。

当前挑战

在构建Computer Scientists Dataset的过程中，研究人员面临了多重挑战。首先，数据源的多样性和异构性使得数据整合变得复杂，尤其是如何将非结构化数据（如维基百科的文本信息）转换为结构化的JSON格式。其次，数据稀疏性问题突出，部分科学家的信息在不同数据源中分布不均，导致某些关键属性缺失。此外，数据抓取过程中还遇到了技术性挑战，如Google Scholar的Captcha验证和页面加载限制，研究人员不得不通过启发式方法和自动化工具（如Selenium）来克服这些障碍。最后，数据清洗和去重也是一个重要挑战，尤其是在处理科学家的别名、不同数据源的ID映射等问题时，需要设计复杂的算法来确保数据的准确性和一致性。

常用场景

经典使用场景

Computer Scientists Dataset 主要用于计算机科学领域的研究，特别是在人物信息整合与分析方面。该数据集通过从结构化（如维基百科信息框）和非结构化（如个人传记）来源收集数据，构建了一个包含计算机科学家详细信息的综合数据库。研究人员可以利用该数据集进行人物关系网络分析、学术影响力评估以及跨领域合作研究。

解决学术问题

该数据集解决了计算机科学领域中人物信息分散、难以整合的学术问题。通过将来自多个来源的数据统一为结构化的JSON格式，研究者可以更高效地进行数据挖掘和分析。此外，数据集中的属性如H指数、引用次数、合作网络等，为学术影响力评估提供了重要依据，推动了学术评价体系的完善。

实际应用

在实际应用中，Computer Scientists Dataset 可用于构建学术搜索引擎、推荐系统以及学术社交网络平台。例如，基于该数据集，可以开发出智能推荐系统，帮助学者找到潜在的合作者或研究方向。此外，教育机构可以利用该数据集进行师资力量评估，优化人才引进策略。

数据集最近研究