five

morzecrew/RefinedPersonaChat

收藏
Hugging Face2023-08-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/morzecrew/RefinedPersonaChat
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于SiberianPersonaChat数据集,并进行了额外的过滤处理,包括政治内容过滤、毒性内容过滤和低质量问答对过滤。数据集包含多种类型的对话和问答数据,如wiki_qa、dialog_personal_context、russianinstructions2等,每种类型的数据量在README中均有详细统计。数据集主要用于文本生成、对话和文本到文本生成任务,语言为俄语,数据规模在10万到100万之间。
提供机构:
morzecrew
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别:
    • 文本生成
    • 对话
    • 文本到文本生成
  • 语言: 俄语
  • 大小类别: 100K<n<1M
  • 美观名称: ref-chat

数据集来源与处理

  • 原始数据集: SiberianPersonaChat Dataset
  • 过滤方法:
    • 政治过滤: cointegrated/rubert-base-cased-nli-threeway
    • 毒性过滤: cointegrated/rubert-tiny-toxicity
    • 低质量问答对过滤: Andrilko/ruBert-base-reward

数据集统计

  • wiki_qa: 4.746
  • dialog_personal_context: 68.296
  • russianinstructions2: 4.812
  • yandexQ_instruct: 6.316
  • rugpt4: 5.269
  • trupalpaca: 4.284
  • text_qa: 2.57
  • long_answers_qa: 3.363
  • chitchat: 0.198
  • reaction: 0.108
  • baby: 0.037

引用信息

  • 作者: Yuri Zaretskiy, Nikolas Ivanov, Igor Kuzmin
  • 标题: Refined dataset for conversational agents
  • 年份: 2023
  • URL: https://huggingface.co/datasets/morzecrew/RefinedPersonaChat
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作