Geraldine/hal_univcotedazur_shs_articles_2013-2023
收藏Hugging Face2024-06-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Geraldine/hal_univcotedazur_shs_articles_2013-2023
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自对HAL API(法国国家开放档案)的请求,仅限于UNIV-COTEDAZUR门户实例。请求收集了2013年至2023年间发表的带有摘要的SHS(社会科学与人文科学)文章的书目记录。数据集包含多个字段,如文章ID、DOI、URI、标题、副标题、作者全名、生产日期、期刊标题、期刊出版商、摘要、法语关键词、开放访问状态和提交类型。此外,数据集中的文本内容(标题、副标题和摘要)被合并为一个“combined”列,并使用sentence-transformers/all-MiniLM-L6-v2模型将其转换为向量嵌入。数据集还被转换为知识图并存储在Neo4j图数据库中,使用的文本嵌入模型是nomic-embed-text-v1.5。
该数据集来自对HAL API(法国国家开放档案)的请求,仅限于UNIV-COTEDAZUR门户实例。请求收集了2013年至2023年间发表的带有摘要的SHS(社会科学与人文科学)文章的书目记录。数据集包含多个字段,如文章ID、DOI、URI、标题、副标题、作者全名、生产日期、期刊标题、期刊出版商、摘要、法语关键词、开放访问状态和提交类型。此外,数据集中的文本内容(标题、副标题和摘要)被合并为一个“combined”列,并使用sentence-transformers/all-MiniLM-L6-v2模型将其转换为向量嵌入。数据集还被转换为知识图并存储在Neo4j图数据库中,使用的文本嵌入模型是nomic-embed-text-v1.5。
提供机构:
Geraldine
原始信息汇总
数据集概述
数据集来源与内容
- 来源: 数据集
hal_data.csv源自法国国家开放档案HAL API,具体来自UNIV-COTEDAZUR门户实例。 - 内容: 收集了2013年至2023年间发表的社会科学文章的文献记录,包含摘要。
数据集参数
- 查询参数:
q=docType_s:ARTfq=abstract_s:[%22%22%20TO%20*]fq=domain_s:*shs*fq=publicationDateY_i:[2013%20TO%202023]fl=halId_s,doiId_s,uri_s,title_s,subTitle_s,authFullName_s,producedDate_s,journalTitle_s,journalPublisher_s,abstract_s,fr_keyword_s,openAccess_bool,submitType_s
数据集处理
- 数据清洗:
- 移除重复记录,基于
halId_s字段。 - 清理
producedDate_s字段,仅保留年份。 - 将缺失值替换为空字符串。
- 移除重复记录,基于
- 新列创建: 创建名为
combined的新列,包含title_s,subTitle_s, 和abstract_s的文本内容。
文本嵌入
- 嵌入模型: 使用
sentence-transformers/all-MiniLM-L6-v2模型将combined列的值转换为向量。 - 嵌入存储: 嵌入结果存储在
hal_embeddings.pkl文件中。
知识图谱
- 图谱创建: 除
abstract和combined列外,数据集已转换为知识图谱,并存储在Neo4j图数据库中。 - 文本嵌入模型: 使用
nomic-embed-text-v1.5模型。
数据集统计
- 记录总数: 3613条。
- 最终数据集大小: 2760条记录。
使用示例
- 相似性搜索: 展示了如何使用文本嵌入进行相似性搜索,返回与给定查询最相似的文章。
知识图谱索引
- 索引存储: 知识图谱索引存储在
/index_storage目录中,可轻松加载到Neo4j数据库中进行查询。



