Word_list_dataset_terminology
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/JiangYanting/Word_list_dataset_terminology
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含了许多领域/学科/专业/行业的术语表词汇库。数据采集、整理自各大图书情报网站、专利词库网站、输入法词库网站等。目前规模涵盖27个领域/行业/学科,共425595词。
This is a comprehensive glossary vocabulary library encompassing numerous fields, disciplines, specialties, and industries. The data was collected and organized from major library and information websites, patent lexicon websites, and input method lexicon websites. Currently, it covers 27 fields/industries/disciplines, totaling 425,595 terms.
创建时间:
2020-08-24
原始信息汇总
Word_list_dataset_terminology
领域词表大合集/专业词表/术语表/主题词表/词库/词汇分类/专业词表下载
数据集概述
更新信息
- 更新日期: 2020-12-12
- 新增内容: 43000多条带有释义和对应英文名的专业术语数据。
数据集简介
- 内容: 包含27个领域/行业/学科的术语表词汇库。
- 来源: 数据采集自图书情报网站、专利词库网站、输入法词库网站等。
- 规模: 共425595词。
引用信息
- 引用文献: 蒋彦廷,胡韧奋.基于BERT模型的图书表示学习与多标签分类研究[J]. 新世纪图书馆(图书情报学CSSCI核心刊物), 2020(09):38-44.
各专业词表词语数统计
| 文件 | 词语数 |
|---|---|
| 00建筑词汇.txt | 7479 |
| 01计算机词汇.txt | 10302 |
| 02电力电气词汇.txt | 19133 |
| 03电子词汇.txt | 5596 |
| 04船舶港口词汇.txt | 4277 |
| 05服装纺织词汇.txt | 1950 |
| 06钢铁冶金词汇上.txt | 40700 |
| 06钢铁冶金词汇下.txt | 51206 |
| 07石油化工词汇.txt | 3037 |
| 08材料科学词库.txt | 923 |
| 09环境科学与工程词汇.txt | 342 |
| 10机械行业词汇.txt | 1772 |
| 11建筑词汇.txt | 9501 |
| 12交通运输物流词汇.txt | 7845 |
| 13矿业地质词汇.txt | 1216 |
| 14汽车车辆业词汇.txt | 7627 |
| 15水利领域词汇.txt | 28429 |
| 16通信与无线电词汇.txt | 486 |
| 17土木工程城建词汇.txt | 3979 |
| 18印刷印染词汇.txt | 687 |
| 19测绘摄影与制图词汇.txt | 4390 |
| 20语言学词汇.txt | 2613 |
| 21哲学词汇.txt | 5453 |
| 22历史学词汇.txt | 23613 |
| 23宗教词汇.txt | 23578 |
| 24法学法律词汇.txt | 4745 |
| 25财会贸易金融词汇.txt | 18454 |
| 26医学词汇上.txt | 35040 |
| 27医学词汇中.txt | 21526 |
| 28医学词汇下.txt | 33482 |
| 29农业词汇.txt | 10321 |
| 30艺术学词汇.txt | 35893 |
获取方式
- 联系方式: 微信号:jyt629000,或QQ号:540980735,或邮箱:jiangyanting@mail.bnu.edu.cn
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对各大图书情报网站、专利词库网站及输入法词库网站的广泛数据采集与整理。通过系统化的分类与整合,最终形成了涵盖27个领域/行业/学科的术语表词汇库,总计包含425595个词汇。此外,2020年12月12日的更新中,新增了43000多条带有释义和对应英文名的专业术语,进一步丰富了数据集的内容和实用性。
特点
此数据集的显著特点在于其广泛的领域覆盖和详尽的词汇分类。不仅涵盖了从建筑到医学、从计算机到艺术的多个学科和行业,还特别注重术语的释义和英文对应,为跨语言和跨学科的研究提供了便利。此外,数据集的规模庞大,包含超过42万条词汇,确保了其在各类研究中的广泛应用潜力。
使用方法
用户可通过联系作者获取该数据集,联系方式包括微信号、QQ号及电子邮箱。获取数据集后,用户可将其应用于科研论文、项目工程等多种场景,特别是在需要进行多标签分类或跨学科研究时,该数据集能够提供丰富的术语资源。引用时,建议参考蒋彦廷和胡韧奋的相关研究文献,以确保学术规范和数据来源的透明性。
背景与挑战
背景概述
Word_list_dataset_terminology数据集是由蒋彦廷和胡韧奋于2020年创建,旨在为多个学科和行业提供全面的专业术语词汇库。该数据集涵盖了27个领域,包括建筑、计算机、医学、法律等,总计包含425,595个词汇。其构建过程涉及从各大图书情报网站、专利词库网站及输入法词库网站的数据采集与整理。这一数据集的发布,极大地丰富了学术研究和工程项目中的术语资源,为跨学科研究提供了坚实的语言基础。
当前挑战
尽管Word_list_dataset_terminology数据集在术语资源方面具有显著优势,但其构建过程中仍面临诸多挑战。首先,数据来源的多样性导致术语的准确性和一致性难以保证。其次,不同领域术语的更新速度差异大,维护和更新数据集需要持续的人力和资源投入。此外,术语的多义性和歧义性也是数据集使用中的一个重要挑战,特别是在跨学科研究中,如何准确理解和应用这些术语成为一大难题。
常用场景
经典使用场景
在自然语言处理领域,Word_list_dataset_terminology数据集被广泛应用于术语识别与分类任务。通过该数据集,研究者能够构建多领域的术语词典,从而提升文本分析的准确性和深度。例如,在机器翻译、信息检索和文本挖掘等任务中,利用该数据集进行术语匹配和分类,可以显著提高系统的性能和用户体验。
衍生相关工作
基于Word_list_dataset_terminology数据集,研究者们开展了一系列相关工作。例如,有研究利用该数据集进行术语抽取和语义网络构建,以支持知识图谱的自动生成。此外,还有研究将其应用于跨语言术语对齐,以提升多语言信息系统的性能。这些衍生工作不仅丰富了数据集的应用场景,也推动了自然语言处理技术的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,Word_list_dataset_terminology数据集的最新研究方向主要集中在术语识别与分类的自动化方法上。随着深度学习技术的进步,特别是BERT等预训练模型的应用,研究者们致力于开发更高效的术语抽取和分类算法,以提升跨领域术语处理的准确性和效率。此外,该数据集也被广泛应用于多标签分类任务中,通过结合领域特定的术语知识,进一步优化文本表示学习和分类性能。这些研究不仅推动了术语学的发展,也为跨学科知识融合提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



