APTY

github2024-07-04 更新2024-07-06 收录

下载链接：

https://github.com/worta/apty

下载链接

链接失效反馈

官方服务：

资源简介：

来自论文《Towards Human Understanding of Paraphrase Types in ChatGPT》的数据集，包含两部分：第一部分（APTYbase）包含基于ETPC数据集的带有特定原子释义类型的注释释义；第二部分（APTYranked）包含人类偏好排序特定原子释义类型的释义。

The dataset from the paper *Towards Human Understanding of Paraphrase Types in ChatGPT* consists of two parts: The first part (APTYbase) contains annotated paraphrases with specific atomic paraphrase types sourced from the ETPC dataset; the second part (APTYranked) includes paraphrases accompanied by human preference rankings for specific atomic paraphrase types.

创建时间：

2024-07-02

原始信息汇总

APTY 数据集

数据集概述

APTY 数据集来自论文 "Towards Human Understanding of Paraphrase Types in ChatGPT"。该数据集包含两个部分：

APTYbase：包含基于 ETPC 数据集的带注释的释义，具有特定的原子释义类型。
APTYranked：包含人类对具有特定原子释义类型的释义的偏好排名。

数据集结构

APTYbase

列名	数据类型	附加信息
annotator	int64	注释者ID
apt	string	原子释义类型
index	int64	可与 APTY-ranked 释义连接
kind	int64	生成类型
paraphrase-text	string	释义候选文本
original	string	基础句子
paraphrase_fixed	string	去除生成artifacts的释义文本
paraphrase	bool	语义上等价？
applied-correctly	bool	原子释义类型是否正确应用？
failure_identical	bool	失败原因：句子相同
failure_otherchange	bool	失败原因：其他原子释义类型应用
failure_nonsense	bool	失败原因：释义无意义
failure_other	bool	失败原因：其他原因
correct_format	bool	释义是否包含不希望的artifacts
hard	bool	注释者判断原子释义类型应用是否困难
add_morph	bool	额外变化：形态
add_struct	bool	额外变化：结构
add_semantic	bool	额外变化：语义
add_others	bool	额外变化：其他
mistaken_morph	bool	错误应用原子释义类型：形态
mistaken_struct	bool	错误应用原子释义类型：结构
mistaken_semantic	bool	错误应用原子释义类型：语义
mistaken_other	bool	错误应用原子释义类型：其他
start	int	变化的起始位置（在释义文本中）
end	int	变化的结束位置（在释义文本中）
marked_text	string	变化文本
golden_example	bool	是否为黄金示例（手动生成释义）

APTYranked

字段名	数据类型	附加信息
meta.id	int	ID
meta.annotators	list of ints	注释者列表
meta.APT	string	期望的原子释义类型
original	string	原始句子
chosen.id	int	释义ID，可与APTY_base连接
chosen.text	string	首选释义文本
chosen.ranks	list of ints	注释者给出的排名，按顺序
rejected.id	int	释义ID，可与APTY_base连接
rejected.text	string	非首选释义文本
rejected.ranks	list of ints	注释者给出的排名，按顺序

搜集汇总

数据集介绍

构建方式

在构建APTY数据集的过程中，研究者们首先利用ChatGPT生成了一系列的释义候选，这些候选基于ETPC数据集中的原句。随后，通过人工注释，对这些释义进行了详细的分类和标注，包括原子释义类型（APT）的识别、释义的语义等价性、以及释义是否正确应用了APT等。此外，数据集还包含了注释者对释义难度的评估，以及释义中可能存在的其他变化类型。这一过程确保了数据集的高质量和高可靠性，为后续的研究提供了坚实的基础。

使用方法

使用APTY数据集时，研究者可以通过访问HuggingFace Datasets平台获取数据，并根据需要选择APTYbase或APTYranked部分。对于APTYbase，研究者可以分析释义的生成方式、注释者的评估以及释义的语义等价性。而对于APTYranked，研究者可以进一步探讨人类对释义的偏好排序，从而深入理解释义的生成和评价机制。此外，数据集的详细注释和多维度评估为模型训练和评估提供了丰富的资源。

背景与挑战

背景概述

APTY数据集源自2024年Dominik Meier等人在《Towards Human Understanding of Paraphrase Types in ChatGPT》一文中提出的研究。该数据集旨在深入探讨ChatGPT生成的释义类型及其在人类理解中的应用。APTY数据集分为两部分：APTYbase包含基于ETPC数据集的注释释义，并指定了具体的原子释义类型；APTYranked则包含人类对这些释义类型的偏好排序。这一研究不仅丰富了自然语言处理领域对释义的理解，还为后续研究提供了宝贵的数据资源。

当前挑战

APTY数据集在构建过程中面临多项挑战。首先，生成高质量的释义候选需要依赖ChatGPT，这要求模型具备高度的语言理解和生成能力。其次，注释过程中需确保释义类型的准确应用，避免语义偏差或生成无意义的释义。此外，人类偏好的排序涉及主观判断，如何确保注释的一致性和可靠性也是一大难题。最后，数据集的多样性和覆盖范围需广泛，以确保研究结果的普适性和应用价值。

常用场景

经典使用场景

在自然语言处理领域，APTY数据集的经典使用场景主要集中在语义等价性评估和原型复述类型的识别上。通过APTYbase部分，研究者可以深入分析不同原型复述类型（APT）在实际应用中的表现，从而优化复述生成模型。APTYranked部分则提供了人类对复述偏好排序的数据，这对于训练更符合人类直觉的复述模型具有重要意义。

解决学术问题

APTY数据集在学术研究中解决了复述生成和评估中的多个关键问题。首先，它通过详细的APT标注，帮助研究者理解不同复述类型的语义和结构变化。其次，通过人类偏好排序数据，APTY揭示了复述质量的主观性，为构建更贴近人类认知的评估标准提供了依据。这些研究成果对于提升自然语言处理模型的性能和用户体验具有深远影响。

实际应用

在实际应用中，APTY数据集被广泛用于聊天机器人和智能助手的开发。通过分析APTY中的复述类型和人类偏好，开发者可以设计出更自然、更符合用户期望的对话系统。此外，APTY数据集还被用于搜索引擎优化，通过生成多样化的复述文本，提升搜索结果的多样性和相关性。

数据集最近研究

APTY

APTY 数据集

数据集概述

数据集结构

APTY<sub>base</sub>

APTY<sub>ranked</sub>