ROR
收藏github2025-02-09 更新2025-02-11 收录
下载链接:
https://github.com/pferreir/llm-metadata-cleanup-ror
下载链接
链接失效反馈官方服务:
资源简介:
研究组织注册(Research Organization Registry)数据集,用于提供研究机构的注册信息。
The Research Organization Registry (ROR) dataset is designed to provide registered information for research institutions.
创建时间:
2025-02-08
原始信息汇总
LLM-based metadata cleanup (ROR) 数据集
数据集描述
这是一个使用LLM(语言模型)和向量存储进行元数据清理的示例,以ROR数据集为例。
数据集文件
index.py:接收ROR CSV文件路径作为参数,生成包含所有ROR机构名称向量表示的vectorstore.json文件。search.py:接收包含原始机构名称的文本文件路径,每行一个名称。
使用说明
-
运行
index.py脚本生成向量存储文件: sh $ python index.py ror.csv -
运行
search.py脚本进行机构名称匹配: sh $ python search.py queries.txt
环境要求
- Python版本:2025年及以后的现代版本
- 需要安装的库:
langchain、ollama - 需要拉取的模型:
sam860/granite-embedding-multilingual:107m-F16
模型链接
搜集汇总
数据集介绍

构建方式
该数据集名为ROR,其构建方式是通过采用LLM(大型语言模型)的嵌入技术,结合向量存储方法对ROR CSV文件中的机构名称进行处理,生成包含所有ROR机构名称向量表示的vectorstore.json文件。
使用方法
使用ROR数据集首先需要确保安装了现代版本的Python及必要的langchain和ollama库。通过运行index.py脚本将CSV数据转换为向量存储,再使用search.py脚本对包含原始机构名称的文本文件进行处理,返回每个条目在ROR数据库中最可能的匹配项。
背景与挑战
背景概述
ROR数据集,全称为Research Organization Registry,是一个涵盖全球研究机构名称及其相关元数据的开源数据集。该数据集的创建旨在解决研究机构名称的标准化问题,以促进学术交流与合作的顺畅进行。ROR数据集的构建始于2025年之前,由多个研究机构和专业人士共同协作完成。其核心研究问题是如何精确地识别和匹配研究机构的名称,进而提高学术资源的可发现性和互操作性。ROR数据集的出现对学术机构信息的整合和学术研究效率的提升产生了显著影响。
当前挑战
ROR数据集在构建和应用过程中面临着诸多挑战。首先,研究机构名称的多样性和复杂性使得名称归一化成为一个难题。其次,构建过程中如何高效地处理大量数据,以及如何确保数据质量,都是必须克服的挑战。此外,多语言环境下的机构名称匹配和嵌入向量模型的准确性也是当前亟待解决的问题。
常用场景
经典使用场景
在学术研究领域,特别是在机构名称的标准化处理中,ROR数据集的经典使用场景在于,其作为元数据清理的参照基准,能够借助语言模型和向量存储技术,对机构名称进行向量化表示,进而通过相似度匹配实现机构名称的识别与标准化。
解决学术问题
ROR数据集解决了学术研究中机构名称不统一、格式不规范所导致的文献元数据混乱问题。通过提供标准化机构名称的向量表示,研究者在处理大规模学术数据时,能够准确识别和匹配机构名称,从而提高数据质量和研究效率。
实际应用
在实际应用中,ROR数据集被广泛用于学术数据库的构建与维护,通过自动化处理机构名称,优化了学术资源的检索与引用,对学术交流和知识传播具有重要意义。
数据集最近研究
最新研究方向
在知识图谱与自然语言处理交叉领域,研究学者正致力于利用大型语言模型进行元数据清洗。ROR数据集,作为一项重要的机构名称标准化资源,近期被广泛应用于此类研究中。研究者通过向量表示模型,对ROR中的机构名称进行编码,进而实现机构名称的自动匹配与清洗,显著提高了数据处理效率,促进了知识图谱的构建与应用。此研究方向紧跟语义嵌入技术发展的步伐,对于提升数据质量、增强信息检索精度具有深远的影响。
以上内容由遇见数据集搜集并总结生成



