inkoziev/incomplete_utterance_restoration
收藏Hugging Face2023-01-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/inkoziev/incomplete_utterance_restoration
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于对话中的不完整话语恢复任务,包含1到3个连续对话片段的上下文,并为最后一个片段提供了完整的扩展版本。数据集中的对话片段展示了如何从不完整的话语恢复到完整的表达。例如,一个对话片段可能包含一个不完整的句子,数据集提供了该句子的完整版本。此外,数据集还包含一些特点,如礼貌形式的规范化(例如将“您”规范化为“你”),以及包含不雅语言和侮辱性内容。
---
语言:俄语(ru)
许可协议:CC BY-NC 4.0
语言创作者:专业标注
多语言属性:单语言
源数据集:原创数据集
任务类别:
- 对话式
- 问答式
任务子项:
- 对话生成
- 开放域问答
---
# 面向对话场景中非完整语句补全任务的数据集
关于"不完整语句补全(Incomplete Utterance Restoration)"任务的详细说明,可查阅基于本数据集增强版本训练得到的生成式模型[inkoziev/rugpt_interpreter](https://huggingface.co/inkoziev/rugpt_interpreter)的模型卡片。
本数据集包含长度为1至3轮的对话片段。针对每段对话的最后一句回复,将提供其完整形式,其中已补全指代照应、省略成分等语言现象。
例如,如下样本:
{
"context": ["您好,我们来聊一聊吧?"],
"short_phrase": "您好,来聊",
"expanded_phrase": "我们来聊一聊吧"
}
该样本对应如下对话片段:
- 您好,我们来聊一聊吧?
- 您好,来聊
针对最后一句回复"您好,来聊",将其补全为完整形式"我们来聊一聊吧"。
对于长度为3轮的对话片段,`context`字段将包含2条内容:
{
"context": [
"现在观众到处都是,却看不到研究者。",
"你认为自己是观众还是研究者?"
],
"short_phrase": "研究者",
"expanded_phrase": "我认为自己是研究者"
}
该样本对应如下对话片段:
- 现在观众到处都是,却看不到研究者。
- 你认为自己是观众还是研究者?
- 研究者
针对最后一句回复"研究者",将其补全为完整形式"我认为自己是研究者"。
## 数据集特性
1)多数样本的补全结果中,俄语第二人称复数敬称「Вы(您)」被统一规范为第二人称单数「ты(你)」。
2)数据集包含粗鄙用语、侮辱性语言等不当内容。
## 引用与链接
本数据集由作者本人为对话系统(dialogue systems)相关实验亲手收集,相关项目链接为[https://github.com/Koziev/chatbot](https://github.com/Koziev/chatbot)。若您以任何形式使用本数据集,烦请附上本页面的链接,本人将不胜感激。
提供机构:
inkoziev
原始信息汇总
数据集概述
基本信息
- 语言: 俄语
- 许可证: CC-BY-NC-4.0
- 语言创建者: 专家
- 多语言性: 单语种
- 数据来源: 原始数据
任务类别
- 对话生成
- 开放领域问答
数据集内容
- 包含对话片段,长度为1至3个连续话语。
- 每个对话片段的最后一个话语提供完整版本,包括解决的代词、省略等。
- 示例数据结构包括上下文、短语和扩展短语。
数据集特点
- 许多样本中,第二人称复数形式“Вы”在完整版本中被规范化到“ты”。
- 包含不雅词汇、侮辱等。



