NewTerm
收藏arXiv2024-10-28 更新2024-10-30 收录
下载链接:
https://github.com/hexuandeng/NewTerm
下载链接
链接失效反馈官方服务:
资源简介:
NewTerm数据集由哈尔滨工业大学(深圳)计算机与智能研究院创建,旨在评估大型语言模型(LLMs)对实时新术语的理解能力。该数据集包含2022年和2023年从剑桥、柯林斯和牛津三大在线词典中收集的7100个新术语,涵盖新词、新短语和老词新义三类。数据集的创建过程高度自动化,确保了高质量的基准构建,并允许灵活的实时信息更新。NewTerm数据集主要应用于自然语言理解任务,旨在解决LLMs在处理实时新术语时的性能下降问题,并为未来的研究提供基准。
The NewTerm dataset was developed by the Institute of Computer and Artificial Intelligence, Harbin Institute of Technology (Shenzhen), with the goal of evaluating the ability of Large Language Models (LLMs) to comprehend real-time neologisms. It contains 7,100 new terms collected in 2022 and 2023 from three major online dictionaries: Cambridge, Collins, and Oxford. These terms fall into three categories: new standalone words, new phrases, and new senses of existing words. The dataset construction process is highly automated, ensuring the development of a high-quality benchmark and enabling flexible real-time information updates. Primarily applied to natural language understanding tasks, the NewTerm dataset aims to address the performance degradation of LLMs when handling real-time neologisms, and provide a benchmark for future research.
提供机构:
哈尔滨工业大学(深圳)计算机与智能研究院
创建时间:
2024-10-28
原始信息汇总
NewTerm: Benchmarking Real-Time New Terms for LLMs
数据集概述
- 名称: NewTerm
- 描述: 用于评估大型语言模型(LLMs)对实时新术语的理解能力的基准数据集。包含2022年和2023年的新词、新短语以及旧词新义。
- 更新计划: 每年持续更新。
数据集用途
- 评估现有LLMs对实时新术语的表现。
- 构建自定义基准,针对特定术语如年度新词、低频词、低资源语言、文学或宗教文本。
- 使用交互式人工过滤界面创建高质量基准。
数据集结构
- NewTerm 2022: 位于
benchmark_2022/文件夹。 - NewTerm 2023: 位于
benchmark_2023/文件夹。 - 文件:
new_terms.jsonl: 包含最具挑战性的新术语。COMA.jsonl,COST.jsonl,CSJ.jsonl: 包含自动生成的基准,涵盖论文中定义的三个任务。COMA_clean.jsonl,COST_clean.jsonl,CSJ_clean.jsonl: 包含经过人工过滤的基准。
评估任务
- 任务类型: 开放域自然语言理解任务(NLU)。
- 任务: COMA, COST, CSJ, ALL。
评估模型
- 支持模型: gpt-3.5, gpt-4, claude, vicuna, llama-2, llama-3, falcon, mistral, chatglm2, baichuan2, qwen。
- 评估命令: bash python newterm/evaluation.py --year 2023 --task ALL --prompt BASE --model gpt-4-0613
自动基准构建
-
生成命令: bash bash newterm/generate.sh
-
结果存储: 位于
benchmark_{year}文件夹。
人工过滤界面
- 平台: 使用SurveyJS库构建的Vue3前端和Flask后端。
- 功能: 支持翻译、灵活的问题数量和加载历史记录。
- 启动命令: bash bash human_filtering/interface.sh
搜集汇总
数据集介绍

构建方式
NewTerm数据集的构建采用了高度自动化的方法,确保在最小化人工干预的情况下构建高质量的基准。首先,从在线词典(如Cambridge、Collins和Oxford)中收集每年新增的术语,涵盖新词、新短语以及旧词新义。然后,利用大型语言模型(LLMs)自动构建基准。通过自动生成问题和选择题,以及对生成的内容进行预过滤和后过滤,确保基准的有效性。最后,通过人工过滤进一步验证和筛选,确保数据集的高质量。
特点
NewTerm数据集的主要特点在于其高度自动化和实时更新的能力。数据集专注于评估大型语言模型对新术语的理解能力,涵盖了新词、新短语和旧词新义等多种类型。此外,数据集设计了三种开放域任务(COMA、COST和CSJ),以全面评估LLMs在不同情境下的表现。数据集每年更新,确保能够跟踪最新LLMs的实时性能。
使用方法
NewTerm数据集主要用于评估和比较不同大型语言模型在新术语理解方面的性能。用户可以通过提供的测试代码,对各种开源或闭源的LLMs进行测试。数据集还提供了基准构建代码和人类交互界面代码,支持开发者构建自己的基准数据集,用于评估其他类型的术语,如宗教、文学和低频术语。通过这些工具,研究者和开发者可以更全面地了解和提升LLMs在新术语处理方面的能力。
背景与挑战
背景概述
NewTerm数据集由哈尔滨工业大学(深圳)智能计算与智能研究所的Hexuan Deng、Wenxiang Jiao、Xuebo Liu、Min Zhang和Zhaopeng Tu等人创建,旨在解决大型语言模型(LLMs)在处理实时新术语方面的挑战。该数据集于2022年首次发布,旨在通过高度自动化的构建方法,确保高质量的基准构建,并允许灵活更新实时信息。NewTerm数据集的创建填补了现有基准在实时更新和新术语评估方面的空白,对推动LLMs在处理动态语言环境中的能力具有重要意义。
当前挑战
NewTerm数据集面临的挑战主要包括两个方面:一是解决领域问题,即如何有效评估LLMs对新术语的理解能力;二是在构建过程中遇到的自动化和实时更新问题。尽管现有方法在处理新事实和改进方法方面取得了一定进展,但在新术语的评估上仍存在不足。此外,现有基准构建方法高度依赖人工努力,导致实时更新成本高昂。NewTerm通过设计高度自动化的构建方法,显著降低了更新成本,但仍需解决自动化过程中可能出现的错误和噪声问题。
常用场景
经典使用场景
NewTerm数据集的经典使用场景在于评估大型语言模型(LLMs)对实时新术语的理解能力。通过设计高度自动化的构建方法,该数据集能够灵活更新,确保对实时信息的评估。实验结果表明,新术语对LLMs的性能有显著影响,尤其是在理解新事实和新术语方面。
解决学术问题
NewTerm数据集解决了现有基准在实时更新和新术语评估方面的不足。它提供了一个自适应的基准,能够自动构建高质量的评估数据,减少人工干预。这不仅解决了LLMs在处理新术语时的性能下降问题,还为未来的研究铺平了道路,特别是在分析哪些类型的术语对模型更具挑战性以及为什么模型在新术语上表现不佳。
衍生相关工作
NewTerm数据集的提出激发了相关领域的研究工作,特别是在评估和改进LLMs对新术语的理解能力方面。例如,一些研究已经开始探索如何通过模型编辑、测试时适应和检索等方法来提升LLMs在新术语上的表现。此外,该数据集还为多跳问答任务和知识导向的LLM评估提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



