paraphrasing

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/lbernick/paraphrasing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含67个训练样本，总大小为17,846字节，下载大小为12,131字节。数据集特征包括：锚文本（anchor_text）、来源数据集（source_dataset）、来源索引（source_index）、锚文本长度（anchor_length）、改写文本（paraphrase_text）、改写文本长度（paraphrase_length）、生成策略（generation_strategy）、生成模型（generation_model）、Claude Sonnet 4-6模型评分（llm_score_claude-sonnet-4-6）以及人工评分（human_score_Lee）。所有特征均明确标注了数据类型，如字符串、浮点数或整数。数据集仅包含训练集（train）拆分。

创建时间：

2026-03-03

原始信息汇总

数据集概述

基本信息

数据集名称: lbernick/paraphrasing
存储位置: https://huggingface.co/datasets/lbernick/paraphrasing
下载大小: 12131 字节
数据集大小: 17846 字节

数据内容与结构

数据条目数量: 67 个示例
数据分割: 仅包含训练集（train）
核心特征:
- anchor_text: 锚文本（原始文本），字符串类型
- paraphrase_text: 释义文本，字符串类型
- source_dataset: 源数据集名称，字符串类型
- source_index: 源数据索引，浮点数类型
- anchor_length: 锚文本长度，整数类型
- paraphrase_length: 释义文本长度，整数类型
- generation_strategy: 生成策略，字符串类型
- generation_model: 生成模型，字符串类型
- llm_score_claude-sonnet-4-6: 由Claude Sonnet 4-6模型给出的评分，浮点数类型
- human_score_Lee: 由标注者Lee给出的人工评分，整数类型

数据获取

配置文件: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的复述数据集对于提升模型的语言理解和生成能力至关重要。该数据集通过系统化的方法收集与生成复述文本，其构建过程主要依赖于多种生成策略与模型。具体而言，数据集中每个样本包含锚文本及其对应的复述文本，这些复述文本通过不同的生成模型和策略产生，并辅以自动化评分与人工标注的双重评估机制，确保了数据的多样性与可靠性。

特点

该数据集在复述任务中展现出鲜明的特点，其结构设计精细，涵盖了丰富的元数据信息。每个样本不仅包含原始文本与复述文本，还详细记录了生成策略、所用模型以及自动化与人工评分，为研究者提供了多维度的分析视角。数据集的规模适中，专注于质量而非数量，使得其在保证数据可信度的同时，便于进行深入的实验与验证。

使用方法

对于研究人员而言，该数据集可直接应用于复述检测、文本生成评估及语义相似度计算等任务。用户可通过加载数据集的标准格式，轻松访问训练分割中的样本，利用提供的元数据字段进行定制化分析。在实际使用中，建议结合自动化评分与人工标注结果，综合评估模型性能，以推动自然语言处理技术在复述相关应用中的进步。

背景与挑战

背景概述

在自然语言处理领域，文本复述技术旨在生成语义一致但表达形式多样的句子，对于机器翻译、文本摘要及对话系统等应用具有重要价值。paraphrasing数据集由研究人员或机构于近年构建，专注于探索复述生成的质量评估与模型优化。该数据集通过整合多种生成策略与模型，并引入人工与自动评分机制，为核心研究问题——即如何量化与提升复述的语义保真度与多样性——提供了实证基础，推动了语义相似性计算与生成模型的发展。

当前挑战

该数据集致力于解决文本复述生成中的核心挑战，即如何在保持原意不变的前提下，实现表达方式的灵活变异，这涉及对语义细微差别的精准捕捉与生成模型的鲁棒性要求。在构建过程中，挑战包括确保复述对的高质量标注，需平衡人工评估的可靠性与自动评分的可扩展性；同时，数据来源的多样性与生成策略的复杂性增加了数据一致性与可比性的维护难度，要求精细的设计以支持后续研究的可复现性。

常用场景

经典使用场景

在自然语言处理领域，文本复述数据集为语义相似性建模提供了关键资源。该数据集通过提供原始文本及其人工或自动生成的复述变体，常用于训练和评估复述生成模型。研究人员利用这些成对的文本数据，能够深入探究语言表达的多样性与语义一致性之间的平衡，进而优化模型在保持原意的基础上生成多样化表述的能力。

衍生相关工作

围绕该数据集，学术界衍生出一系列经典研究工作，主要集中在复述生成模型的架构创新与评估指标的设计上。例如，基于序列到序列的神经模型利用此类数据进行端到端训练，以生成流畅且语义一致的复述。同时，该数据集也催生了更鲁棒的自动评估指标，这些指标旨在更好地与人类对复述质量的判断相关联，推动了整个领域评估标准的发展。

数据集最近研究