150k_keyphrases_labelled
收藏Hugging Face2024-11-03 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ClovenDoug/150k_keyphrases_labelled
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个学术主题重要关键词列表。关键词文件包含约15万个关键词,这些关键词被赋予了300-400个标签,如算法、疾病、定理、引理、化学化合物、研究方法、领域、子领域、主题等。此外,还有约200万个额外的关键词被分类为单字、双字、三字和四字词组。这些关键词是通过从学术数据库(如PubMed、Wikipedia)进行网络爬取以及使用LLM标签、命名实体识别等方法获得的。未来的工作包括移除由LLM人工创建的约100个不需要的标签,并添加一个有用的网络爬取来源列表。
创建时间:
2024-10-25
原始信息汇总
数据集概述
语言
- 英语 (en)
数据规模
- 1M < n < 10M
数据内容
- 包含约150,000个学术主题的关键短语。
- 每个关键短语被标记为约300-400个标签,如算法、疾病、定理、引理、化学化合物、研究方法、领域、子领域、主题等。
- 另外包含约200万个关键短语,分为单字、双字、三字和四字短语。
数据来源
- 通过网络爬虫从学术数据库(如PubMed、Wikipedia)获取。
- 使用LLM(大型语言模型)进行标签标注、命名实体识别等处理。
未来工作
- 需要移除由LLM人工创建的约100个不需要的标签。
- 计划添加一个有用的网络爬虫来源列表。
搜集汇总
数据集介绍

构建方式
该数据集通过多种技术手段构建,涵盖了学术领域的关键短语。数据来源包括从PubMed、Wikipedia等学术数据库进行网络爬取,并结合了大型语言模型(LLM)的标注技术。此外,还采用了命名实体识别(NER)技术对摘要进行标注,以确保关键短语的准确性和多样性。数据集还包含了约200万个额外的关键短语,这些短语被分类为单字词、双字词、三字词和四字词。
使用方法
该数据集适用于自然语言处理(NLP)领域的多项任务,如关键词提取、文本分类、信息检索等。研究人员可以通过加载数据集,利用其丰富的标签体系进行模型训练和评估。数据集中的n-gram短语也可用于语言模型的训练,提升模型对学术文本的理解能力。未来,数据集还将通过去除不必要的标签和扩展数据来源,进一步提升其质量和实用性。
背景与挑战
背景概述
150k_keyphrases_labelled数据集是一个专注于学术领域关键短语标注的资源,由多个学术数据库如PubMed和Wikipedia通过网页抓取技术构建而成。该数据集包含约150,000个关键短语,每个短语被赋予300至400个标签,涵盖算法、疾病、定理、引理、化学化合物、研究方法、领域、子领域及主题等多个类别。此外,数据集还包括约200万个按单字、双字、三字和四字分类的额外关键短语。该数据集的构建结合了大型语言模型(LLM)标注、命名实体识别(NER)等技术,旨在为学术研究和自然语言处理提供丰富的标注数据。
当前挑战
150k_keyphrases_labelled数据集在构建和应用过程中面临多重挑战。首先,数据集中部分标签由大型语言模型(LLM)自动生成,存在约100个不准确或冗余的标签,需进一步清理和优化。其次,数据来源的多样性和复杂性对数据质量提出了更高要求,尤其是在网页抓取过程中,如何确保数据的准确性和完整性成为一大难题。此外,数据集的规模庞大,如何高效地管理和利用这些数据,尤其是在自然语言处理任务中,仍需进一步探索和改进。未来工作包括优化标签系统、扩展数据来源以及提升数据处理的自动化水平。
常用场景
经典使用场景
在学术研究领域,150k_keyphrases_labelled数据集被广泛用于文本挖掘和信息检索任务。研究人员利用该数据集中的关键短语及其标签,进行主题建模、文献分类和知识图谱构建。通过分析这些关键短语,研究者能够更精确地识别和理解学术文献中的核心概念和主题。
解决学术问题
该数据集解决了学术研究中关键短语标注不足的问题,提供了大量经过标注的关键短语,涵盖了算法、疾病、定理、化学化合物等多个领域。这些标注数据为自然语言处理任务提供了丰富的训练资源,显著提升了文本分类、实体识别和语义分析等任务的性能。
实际应用
在实际应用中,150k_keyphrases_labelled数据集被用于构建智能文献推荐系统、学术搜索引擎和知识管理系统。通过利用这些关键短语,系统能够更准确地匹配用户查询与相关文献,提高信息检索的效率和准确性。此外,该数据集还被用于学术出版物的自动摘要生成和关键词提取。
数据集最近研究
最新研究方向
在学术信息抽取与知识图谱构建领域,150k_keyphrases_labelled数据集为研究者提供了丰富的关键短语资源。该数据集包含约15万条关键短语,每条短语被赋予300至400个标签,涵盖算法、疾病、定理、化学化合物等多个学术主题。这些关键短语通过混合网络爬取学术数据库(如PubMed、Wikipedia)以及利用大语言模型(LLM)标注和命名实体识别技术从摘要中提取而来。当前的研究热点聚焦于优化标签质量,特别是剔除由LLM生成的不准确标签,并扩展数据来源以提升数据集的多样性和覆盖范围。这一工作不仅有助于提升学术文献的自动标注效率,也为知识图谱的精细化构建提供了重要支持,推动了学术信息智能化处理的发展。
以上内容由遇见数据集搜集并总结生成



