five

Word_list_dataset_terminology

收藏
github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/JiangYanting/Word_list_dataset_terminology
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含了许多领域/学科/专业/行业的术语表词汇库。数据采集、整理自各大图书情报网站、专利词库网站、输入法词库网站等。目前规模涵盖27个领域/行业/学科,共425595词。

This is a comprehensive glossary vocabulary library encompassing numerous fields, disciplines, specialties, and industries. The data was collected and organized from major library and information websites, patent lexicon websites, and input method lexicon websites. Currently, it covers 27 fields/industries/disciplines, totaling 425,595 terms.
创建时间:
2020-08-24
原始信息汇总

Word_list_dataset_terminology

领域词表大合集/专业词表/术语表/主题词表/词库/词汇分类/专业词表下载

数据集概述

更新信息

  • 更新日期: 2020-12-12
  • 新增内容: 43000多条带有释义和对应英文名的专业术语数据。

数据集简介

  • 内容: 包含27个领域/行业/学科的术语表词汇库。
  • 来源: 数据采集自图书情报网站、专利词库网站、输入法词库网站等。
  • 规模: 共425595词。

引用信息

  • 引用文献: 蒋彦廷,胡韧奋.基于BERT模型的图书表示学习与多标签分类研究[J]. 新世纪图书馆(图书情报学CSSCI核心刊物), 2020(09):38-44.

各专业词表词语数统计

文件 词语数
00建筑词汇.txt 7479
01计算机词汇.txt 10302
02电力电气词汇.txt 19133
03电子词汇.txt 5596
04船舶港口词汇.txt 4277
05服装纺织词汇.txt 1950
06钢铁冶金词汇上.txt 40700
06钢铁冶金词汇下.txt 51206
07石油化工词汇.txt 3037
08材料科学词库.txt 923
09环境科学与工程词汇.txt 342
10机械行业词汇.txt 1772
11建筑词汇.txt 9501
12交通运输物流词汇.txt 7845
13矿业地质词汇.txt 1216
14汽车车辆业词汇.txt 7627
15水利领域词汇.txt 28429
16通信与无线电词汇.txt 486
17土木工程城建词汇.txt 3979
18印刷印染词汇.txt 687
19测绘摄影与制图词汇.txt 4390
20语言学词汇.txt 2613
21哲学词汇.txt 5453
22历史学词汇.txt 23613
23宗教词汇.txt 23578
24法学法律词汇.txt 4745
25财会贸易金融词汇.txt 18454
26医学词汇上.txt 35040
27医学词汇中.txt 21526
28医学词汇下.txt 33482
29农业词汇.txt 10321
30艺术学词汇.txt 35893

获取方式

  • 联系方式: 微信号:jyt629000,或QQ号:540980735,或邮箱:jiangyanting@mail.bnu.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对各大图书情报网站、专利词库网站及输入法词库网站的广泛数据采集与整理。通过系统化的分类与整合,最终形成了涵盖27个领域/行业/学科的术语表词汇库,总计包含425595个词汇。此外,2020年12月12日的更新中,新增了43000多条带有释义和对应英文名的专业术语,进一步丰富了数据集的内容和实用性。
特点
此数据集的显著特点在于其广泛的领域覆盖和详尽的词汇分类。不仅涵盖了从建筑到医学、从计算机到艺术的多个学科和行业,还特别注重术语的释义和英文对应,为跨语言和跨学科的研究提供了便利。此外,数据集的规模庞大,包含超过42万条词汇,确保了其在各类研究中的广泛应用潜力。
使用方法
用户可通过联系作者获取该数据集,联系方式包括微信号、QQ号及电子邮箱。获取数据集后,用户可将其应用于科研论文、项目工程等多种场景,特别是在需要进行多标签分类或跨学科研究时,该数据集能够提供丰富的术语资源。引用时,建议参考蒋彦廷和胡韧奋的相关研究文献,以确保学术规范和数据来源的透明性。
背景与挑战
背景概述
Word_list_dataset_terminology数据集是由蒋彦廷和胡韧奋于2020年创建,旨在为多个学科和行业提供全面的专业术语词汇库。该数据集涵盖了27个领域,包括建筑、计算机、医学、法律等,总计包含425,595个词汇。其构建过程涉及从各大图书情报网站、专利词库网站及输入法词库网站的数据采集与整理。这一数据集的发布,极大地丰富了学术研究和工程项目中的术语资源,为跨学科研究提供了坚实的语言基础。
当前挑战
尽管Word_list_dataset_terminology数据集在术语资源方面具有显著优势,但其构建过程中仍面临诸多挑战。首先,数据来源的多样性导致术语的准确性和一致性难以保证。其次,不同领域术语的更新速度差异大,维护和更新数据集需要持续的人力和资源投入。此外,术语的多义性和歧义性也是数据集使用中的一个重要挑战,特别是在跨学科研究中,如何准确理解和应用这些术语成为一大难题。
常用场景
经典使用场景
在自然语言处理领域,Word_list_dataset_terminology数据集被广泛应用于术语识别与分类任务。通过该数据集,研究者能够构建多领域的术语词典,从而提升文本分析的准确性和深度。例如,在机器翻译、信息检索和文本挖掘等任务中,利用该数据集进行术语匹配和分类,可以显著提高系统的性能和用户体验。
衍生相关工作
基于Word_list_dataset_terminology数据集,研究者们开展了一系列相关工作。例如,有研究利用该数据集进行术语抽取和语义网络构建,以支持知识图谱的自动生成。此外,还有研究将其应用于跨语言术语对齐,以提升多语言信息系统的性能。这些衍生工作不仅丰富了数据集的应用场景,也推动了自然语言处理技术的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,Word_list_dataset_terminology数据集的最新研究方向主要集中在术语识别与分类的自动化方法上。随着深度学习技术的进步,特别是BERT等预训练模型的应用,研究者们致力于开发更高效的术语抽取和分类算法,以提升跨领域术语处理的准确性和效率。此外,该数据集也被广泛应用于多标签分类任务中,通过结合领域特定的术语知识,进一步优化文本表示学习和分类性能。这些研究不仅推动了术语学的发展,也为跨学科知识融合提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作