morzecrew/RefinedPersonaChat
收藏Hugging Face2023-08-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/morzecrew/RefinedPersonaChat
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于SiberianPersonaChat数据集,并进行了额外的过滤处理,包括政治内容过滤、毒性内容过滤和低质量问答对过滤。数据集包含多种类型的对话和问答数据,如wiki_qa、dialog_personal_context、russianinstructions2等,每种类型的数据量在README中均有详细统计。数据集主要用于文本生成、对话和文本到文本生成任务,语言为俄语,数据规模在10万到100万之间。
提供机构:
morzecrew
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 文本生成
- 对话
- 文本到文本生成
- 语言: 俄语
- 大小类别: 100K<n<1M
- 美观名称: ref-chat
数据集来源与处理
- 原始数据集: SiberianPersonaChat Dataset
- 过滤方法:
- 政治过滤: cointegrated/rubert-base-cased-nli-threeway
- 毒性过滤: cointegrated/rubert-tiny-toxicity
- 低质量问答对过滤: Andrilko/ruBert-base-reward
数据集统计
- wiki_qa: 4.746
- dialog_personal_context: 68.296
- russianinstructions2: 4.812
- yandexQ_instruct: 6.316
- rugpt4: 5.269
- trupalpaca: 4.284
- text_qa: 2.57
- long_answers_qa: 3.363
- chitchat: 0.198
- reaction: 0.108
- baby: 0.037
引用信息
- 作者: Yuri Zaretskiy, Nikolas Ivanov, Igor Kuzmin
- 标题: Refined dataset for conversational agents
- 年份: 2023
- URL: https://huggingface.co/datasets/morzecrew/RefinedPersonaChat



