five

PARADE

收藏
arXiv2020-10-08 更新2024-06-21 收录
下载链接:
https://github.com/heyunh2015/PARADE_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
PARADE数据集是由德州农工大学计算机科学与工程系创建的,专门用于测试模型在需要计算机科学领域知识的情况下进行释义识别的能力。该数据集包含10,182对释义和非释义句子,描述了788个不同的计算机科学实体。数据集的创建过程涉及从在线用户生成的闪卡中收集句子对,并通过领域专家的注释进行精炼。PARADE数据集的应用领域主要集中在测试和改进自然语言处理模型在特定领域知识背景下的释义识别能力,旨在解决现有模型在处理领域特定语义时的不足。

The PARADE dataset was created by the Department of Computer Science and Engineering at Texas A&M University, specifically designed to evaluate models' paraphrase identification capabilities in scenarios requiring computer science domain knowledge. This dataset comprises 10,182 paraphrase and non-paraphrase sentence pairs, covering 788 distinct computer science entities. The development process of the PARADE dataset involved collecting sentence pairs from online user-generated flashcards, followed by refinement via annotations from domain experts. The primary applications of the PARADE dataset focus on testing and enhancing the paraphrase identification performance of natural language processing (NLP) models under the context of specialized domain knowledge, aiming to address the limitations of existing models when handling domain-specific semantics.
提供机构:
德州农工大学计算机科学与工程系
创建时间:
2020-10-08
搜集汇总
背景与挑战
背景概述
PARADE数据集由德州农工大学创建,包含10,182对释义和非释义句子,覆盖788个计算机科学实体,用于测试自然语言处理模型在特定领域知识下的语义理解能力。该数据集基于在线闪卡收集并由专家注释,旨在解决现有模型在处理领域特定语义时的不足。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作