five

inkoziev/incomplete_utterance_restoration

收藏
Hugging Face2023-01-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/inkoziev/incomplete_utterance_restoration
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于对话中的不完整话语恢复任务,包含1到3个连续对话片段的上下文,并为最后一个片段提供了完整的扩展版本。数据集中的对话片段展示了如何从不完整的话语恢复到完整的表达。例如,一个对话片段可能包含一个不完整的句子,数据集提供了该句子的完整版本。此外,数据集还包含一些特点,如礼貌形式的规范化(例如将“您”规范化为“你”),以及包含不雅语言和侮辱性内容。

--- 语言:俄语(ru) 许可协议:CC BY-NC 4.0 语言创作者:专业标注 多语言属性:单语言 源数据集:原创数据集 任务类别: - 对话式 - 问答式 任务子项: - 对话生成 - 开放域问答 --- # 面向对话场景中非完整语句补全任务的数据集 关于"不完整语句补全(Incomplete Utterance Restoration)"任务的详细说明,可查阅基于本数据集增强版本训练得到的生成式模型[inkoziev/rugpt_interpreter](https://huggingface.co/inkoziev/rugpt_interpreter)的模型卡片。 本数据集包含长度为1至3轮的对话片段。针对每段对话的最后一句回复,将提供其完整形式,其中已补全指代照应、省略成分等语言现象。 例如,如下样本: { "context": ["您好,我们来聊一聊吧?"], "short_phrase": "您好,来聊", "expanded_phrase": "我们来聊一聊吧" } 该样本对应如下对话片段: - 您好,我们来聊一聊吧? - 您好,来聊 针对最后一句回复"您好,来聊",将其补全为完整形式"我们来聊一聊吧"。 对于长度为3轮的对话片段,`context`字段将包含2条内容: { "context": [ "现在观众到处都是,却看不到研究者。", "你认为自己是观众还是研究者?" ], "short_phrase": "研究者", "expanded_phrase": "我认为自己是研究者" } 该样本对应如下对话片段: - 现在观众到处都是,却看不到研究者。 - 你认为自己是观众还是研究者? - 研究者 针对最后一句回复"研究者",将其补全为完整形式"我认为自己是研究者"。 ## 数据集特性 1)多数样本的补全结果中,俄语第二人称复数敬称「Вы(您)」被统一规范为第二人称单数「ты(你)」。 2)数据集包含粗鄙用语、侮辱性语言等不当内容。 ## 引用与链接 本数据集由作者本人为对话系统(dialogue systems)相关实验亲手收集,相关项目链接为[https://github.com/Koziev/chatbot](https://github.com/Koziev/chatbot)。若您以任何形式使用本数据集,烦请附上本页面的链接,本人将不胜感激。
提供机构:
inkoziev
原始信息汇总

数据集概述

基本信息

  • 语言: 俄语
  • 许可证: CC-BY-NC-4.0
  • 语言创建者: 专家
  • 多语言性: 单语种
  • 数据来源: 原始数据

任务类别

  • 对话生成
  • 开放领域问答

数据集内容

  • 包含对话片段,长度为1至3个连续话语。
  • 每个对话片段的最后一个话语提供完整版本,包括解决的代词、省略等。
  • 示例数据结构包括上下文、短语和扩展短语。

数据集特点

  1. 许多样本中,第二人称复数形式“Вы”在完整版本中被规范化到“ты”。
  2. 包含不雅词汇、侮辱等。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作