Proceeding base 和 Web page base
收藏github2020-07-21 更新2024-05-31 收录
下载链接:
https://github.com/tobara289/jsai-datasets
下载链接
链接失效反馈官方服务:
资源简介:
Proceeding base数据集是将J-STAGE的预稿集转换为json格式的数据集。Web page base数据集是将人工智能学会全国大会的大会程序转换为json格式的数据集。
The Proceeding base dataset is a collection of preprints from J-STAGE converted into JSON format. The Web page base dataset consists of the conference proceedings from the national conference of the Artificial Intelligence Society, also transformed into JSON format.
创建时间:
2020-06-11
原始信息汇总
数据集概述
数据集来源
- Proceeding base: 该数据集基于J-STAGE的预稿集,转换为JSON格式。
- Web page base: 该数据集基于人工智能学会全国大会的会议程序,转换为JSON格式。
数据集结构
Proceeding base
paper_num: 发表编号url: 发表内容参考URLtitle: 发表标题keywords: 关键词列表co-author: 合作作者列表org: 组织名字典author_org: 作者组织信息,包括org_num列表
Web page base
paper_num: 发表编号url: 发表内容参考URLcategory: 发表种类sub_category: 发表分类列表section_num: 区分编号section_title: 发表中区分schedule_num: 预定听讲者数量like_num: 评价数comment_num: 评论数keywords: 关键词列表title: 发表标题org: 组织名co-author: 合作作者author: 首席作者authors_org: 所属组织
组织名统一规则
- 对于组织名的不一致表达进行了统一,包括添加了
org_jp和authors_org_jp字段。 - 对于明显的错误进行了修正,例如将“産業総合技術研究所”修正为“産業技術総合研究所”。
- 对于公司、学术机构和行政机构的名称进行了规范化处理,确保名称的一致性和准确性。
示例数据
- 提供了一个具体的数据示例,展示了数据集中的数据结构和内容。
搜集汇总
数据集介绍

构建方式
Proceeding base 和 Web page base 数据集的构建基于 J-STAGE 的学术会议预印本和日本人工智能学会全国大会的会议程序。Proceeding base 数据集通过将 J-STAGE 的预印本转换为 JSON 格式,提取了论文的 URL、标题、关键词、合著者、组织信息等关键字段。Web page base 数据集则通过解析大会程序的网页内容,生成了包含论文类别、子类别、章节编号、标题、时间安排、点赞数、评论数等详细信息的 JSON 文件。两个数据集均对组织名称进行了标准化处理,解决了表达不一致的问题。
特点
Proceeding base 数据集以简洁的结构呈现了学术论文的核心信息,包括论文的标题、关键词、合著者及其所属组织,便于快速检索和分析。Web page base 数据集则进一步丰富了信息维度,涵盖了论文的分类、时间安排、用户互动数据等,为研究会议论文的传播和影响力提供了多维度的支持。两个数据集均对组织名称进行了严格的标准化处理,确保了数据的一致性和可读性。
使用方法
Proceeding base 和 Web page base 数据集的使用方法较为直观。用户可以通过解析 JSON 文件,提取所需的论文信息,如标题、关键词、作者及其所属组织等。对于 Web page base 数据集,用户还可以进一步分析论文的分类、时间安排、用户互动数据等,以研究论文的传播效果和影响力。数据集的标准化组织名称字段为跨数据集的分析提供了便利,用户可以直接使用这些字段进行组织层面的统计和比较分析。
背景与挑战
背景概述
Proceeding base 和 Web page base 数据集由日本科学技術情報発信・流通総合システム(J-STAGE)提供,主要涵盖了日本人工智能学会全国大会的论文和会议程序数据。该数据集的核心研究问题在于如何高效地组织和检索学术会议中的论文信息,以及如何通过结构化的数据格式提升学术资源的可访问性。数据集以JSON格式存储,包含了论文的标题、关键词、作者、组织信息等关键字段,为研究者提供了丰富的元数据支持。该数据集对学术信息检索、知识图谱构建等领域具有重要的参考价值。
当前挑战
该数据集在构建过程中面临的主要挑战包括数据格式的统一与标准化问题。由于原始数据来源多样,组织名称、作者信息等存在大量表达不一致的情况,需通过复杂的逻辑进行统一处理。此外,数据集中涉及的多语言支持和跨领域信息整合也增加了数据清洗和整理的难度。在应用层面,如何从海量的论文数据中提取有价值的知识,并构建高效的检索系统,是该数据集在实际应用中需要解决的核心问题。
常用场景
经典使用场景
在学术研究领域,Proceeding base 和 Web page base 数据集主要用于分析学术会议中的论文发表趋势、作者合作模式以及研究主题的演变。通过对这些数据的深入挖掘,研究者能够识别出特定领域内的研究热点和未来发展方向。
解决学术问题
该数据集解决了学术研究中关于组织名称和作者信息标准化的问题,通过统一和规范化的数据处理,提高了数据的一致性和可用性。此外,它还为研究学术合作网络、知识传播路径以及学术影响力评估提供了坚实的基础。
衍生相关工作
基于此数据集,已有多项研究探讨了学术合作网络的构建与分析、学术影响力的量化评估以及学术资源的优化配置。这些研究不仅深化了我们对学术交流机制的理解,也为学术资源的有效管理和利用提供了科学依据。
以上内容由遇见数据集搜集并总结生成



