NiGuLa/SGDD-TST
收藏Hugging Face2023-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NiGuLa/SGDD-TST
下载链接
链接失效反馈官方服务:
资源简介:
SGDD-TST(Schema-Guided Dialogue Dataset for Text Style Transfer)是一个用于评估个人计划领域中文本风格转换内容相似性度量质量的数据集。原始文本来源于Schema-Guided Dialogue Dataset,并通过基于T5的模型进行转述,结果由众包工人使用Yandex.Toloka进行标注。数据集包含原始文本、形式转换后的文本、自动标注的标签、标注的置信度等列。
SGDD-TST (Schema-Guided Dialogue Dataset for Text Style Transfer) is a dataset developed to evaluate the quality of content similarity metrics for text style transfer tasks in the personal planning domain. The original texts are sourced from the Schema-Guided Dialogue Dataset and were paraphrased using a T5-based model. The paraphrased outputs were annotated by crowdworkers via Yandex.Toloka. The dataset includes columns such as original texts, stylistically transformed texts, automatically annotated labels, annotation confidence scores, and other relevant fields.
提供机构:
NiGuLa
原始信息汇总
数据集概述
数据集名称
SGDD-TST - Schema-Guided Dialogue Dataset for Text Style Transfer
数据集目的
用于评估文本风格转换中内容相似度的质量,特别是在个人计划领域的应用。
数据来源
原始文本来自The Schema-Guided Dialogue Dataset,通过T5-based模型进行风格转换,该模型训练于GYAFC formality dataset。
数据集内容
包含以下列:
- INPUT:text_first - 原始文本
- INPUT:text_second - 风格转换后的文本
- OUTPUT:result - 自动分配的标注标签
- CONFIDENCE:result - 标注的置信度
- vote_type - 投票类型
- vote_different - 选择“文本完全不同”的票数
- vote_some_details_lost - 选择“文本相似但有显著差异”的票数
- vote_OK - 选择“文本意思相同或有轻微差异”的票数
- average - 内容相似度的平均分数,用于评估内容相似度度量的质量
联系方式
如有疑问,请联系Nikolay (bbkhse@gmail.com)
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



