inkoziev/incomplete_utterance_restoration

Name: inkoziev/incomplete_utterance_restoration
Creator: inkoziev
Published: 2023-01-27 15:56:24
License: 暂无描述

Hugging Face2023-01-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/inkoziev/incomplete_utterance_restoration

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于对话中的不完整话语恢复任务，包含1到3个连续对话片段的上下文，并为最后一个片段提供了完整的扩展版本。数据集中的对话片段展示了如何从不完整的话语恢复到完整的表达。例如，一个对话片段可能包含一个不完整的句子，数据集提供了该句子的完整版本。此外，数据集还包含一些特点，如礼貌形式的规范化（例如将“您”规范化为“你”），以及包含不雅语言和侮辱性内容。

--- 语言：俄语（ru）许可协议：CC BY-NC 4.0 语言创作者：专业标注多语言属性：单语言源数据集：原创数据集任务类别： - 对话式 - 问答式任务子项： - 对话生成 - 开放域问答 --- # 面向对话场景中非完整语句补全任务的数据集关于"不完整语句补全（Incomplete Utterance Restoration）"任务的详细说明，可查阅基于本数据集增强版本训练得到的生成式模型[inkoziev/rugpt_interpreter](https://huggingface.co/inkoziev/rugpt_interpreter)的模型卡片。本数据集包含长度为1至3轮的对话片段。针对每段对话的最后一句回复，将提供其完整形式，其中已补全指代照应、省略成分等语言现象。例如，如下样本： { "context": ["您好，我们来聊一聊吧？"], "short_phrase": "您好，来聊", "expanded_phrase": "我们来聊一聊吧" } 该样本对应如下对话片段： - 您好，我们来聊一聊吧？ - 您好，来聊针对最后一句回复"您好，来聊"，将其补全为完整形式"我们来聊一聊吧"。对于长度为3轮的对话片段，`context`字段将包含2条内容： { "context": [ "现在观众到处都是，却看不到研究者。", "你认为自己是观众还是研究者？" ], "short_phrase": "研究者", "expanded_phrase": "我认为自己是研究者" } 该样本对应如下对话片段： - 现在观众到处都是，却看不到研究者。 - 你认为自己是观众还是研究者？ - 研究者针对最后一句回复"研究者"，将其补全为完整形式"我认为自己是研究者"。 ## 数据集特性 1）多数样本的补全结果中，俄语第二人称复数敬称「Вы（您）」被统一规范为第二人称单数「ты（你）」。 2）数据集包含粗鄙用语、侮辱性语言等不当内容。 ## 引用与链接本数据集由作者本人为对话系统（dialogue systems）相关实验亲手收集，相关项目链接为[https://github.com/Koziev/chatbot](https://github.com/Koziev/chatbot)。若您以任何形式使用本数据集，烦请附上本页面的链接，本人将不胜感激。

提供机构：

inkoziev

原始信息汇总

数据集概述

基本信息

语言: 俄语
许可证: CC-BY-NC-4.0
语言创建者: 专家
多语言性: 单语种
数据来源: 原始数据

任务类别

对话生成
开放领域问答

数据集内容

包含对话片段，长度为1至3个连续话语。
每个对话片段的最后一个话语提供完整版本，包括解决的代词、省略等。
示例数据结构包括上下文、短语和扩展短语。

数据集特点

许多样本中，第二人称复数形式“Вы”在完整版本中被规范化到“ты”。
包含不雅词汇、侮辱等。

5,000+

优质数据集

54 个

任务类型

进入经典数据集