five

Geraldine/hal_univcotedazur_shs_articles_2013-2023

收藏
Hugging Face2024-06-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Geraldine/hal_univcotedazur_shs_articles_2013-2023
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自对HAL API(法国国家开放档案)的请求,仅限于UNIV-COTEDAZUR门户实例。请求收集了2013年至2023年间发表的带有摘要的SHS(社会科学与人文科学)文章的书目记录。数据集包含多个字段,如文章ID、DOI、URI、标题、副标题、作者全名、生产日期、期刊标题、期刊出版商、摘要、法语关键词、开放访问状态和提交类型。此外,数据集中的文本内容(标题、副标题和摘要)被合并为一个“combined”列,并使用sentence-transformers/all-MiniLM-L6-v2模型将其转换为向量嵌入。数据集还被转换为知识图并存储在Neo4j图数据库中,使用的文本嵌入模型是nomic-embed-text-v1.5。

该数据集来自对HAL API(法国国家开放档案)的请求,仅限于UNIV-COTEDAZUR门户实例。请求收集了2013年至2023年间发表的带有摘要的SHS(社会科学与人文科学)文章的书目记录。数据集包含多个字段,如文章ID、DOI、URI、标题、副标题、作者全名、生产日期、期刊标题、期刊出版商、摘要、法语关键词、开放访问状态和提交类型。此外,数据集中的文本内容(标题、副标题和摘要)被合并为一个“combined”列,并使用sentence-transformers/all-MiniLM-L6-v2模型将其转换为向量嵌入。数据集还被转换为知识图并存储在Neo4j图数据库中,使用的文本嵌入模型是nomic-embed-text-v1.5。
提供机构:
Geraldine
原始信息汇总

数据集概述

数据集来源与内容

  • 来源: 数据集hal_data.csv源自法国国家开放档案HAL API,具体来自UNIV-COTEDAZUR门户实例。
  • 内容: 收集了2013年至2023年间发表的社会科学文章的文献记录,包含摘要。

数据集参数

  • 查询参数:
    • q=docType_s:ART
    • fq=abstract_s:[%22%22%20TO%20*]
    • fq=domain_s:*shs*
    • fq=publicationDateY_i:[2013%20TO%202023]
    • fl=halId_s,doiId_s,uri_s,title_s,subTitle_s,authFullName_s,producedDate_s,journalTitle_s,journalPublisher_s,abstract_s,fr_keyword_s,openAccess_bool,submitType_s

数据集处理

  • 数据清洗:
    • 移除重复记录,基于halId_s字段。
    • 清理producedDate_s字段,仅保留年份。
    • 将缺失值替换为空字符串。
  • 新列创建: 创建名为combined的新列,包含title_s, subTitle_s, 和abstract_s的文本内容。

文本嵌入

  • 嵌入模型: 使用sentence-transformers/all-MiniLM-L6-v2模型将combined列的值转换为向量。
  • 嵌入存储: 嵌入结果存储在hal_embeddings.pkl文件中。

知识图谱

  • 图谱创建: 除abstractcombined列外,数据集已转换为知识图谱,并存储在Neo4j图数据库中。
  • 文本嵌入模型: 使用nomic-embed-text-v1.5模型。

数据集统计

  • 记录总数: 3613条。
  • 最终数据集大小: 2760条记录。

使用示例

  • 相似性搜索: 展示了如何使用文本嵌入进行相似性搜索,返回与给定查询最相似的文章。

知识图谱索引

  • 索引存储: 知识图谱索引存储在/index_storage目录中,可轻松加载到Neo4j数据库中进行查询。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作