Yuki弱智吧问答数据集

Name: Yuki弱智吧问答数据集
Creator: maas
Published: 2026-05-16 17:56:32
License: 暂无描述

魔搭社区2026-05-16 更新2025-09-27 收录

下载链接：

https://modelscope.cn/datasets/DanKe123abc/yuki_ruozhiba_1.5k

下载链接

链接失效反馈

官方服务：

资源简介：

# Yuki弱智吧问答数据集 **语言：** 中文（Chinese-simple） **数据大小：** 1500条 Yuki弱智吧问答数据集是由 DanKe Yuki大模型生成的高质量单轮对话数据，旨在为大语言模型模拟情感的研究提供方向。本数据集选取了[百度贴吧-弱智吧](https://tieba.baidu.com/f?kw=%E5%BE%AE%E6%99%BA&ie=utf-8&tp=0)和[Ruozhiba 数据集](https://huggingface.co/datasets/rocksJuicy/ruozhiba)中的1500条问题。由于本数据集中的部分问题过于刁钻，目前模型生成的回答不一定正确，本数据集仅作为对话风格的微调数据。值得注意的是，Yuki 大模型在生成文本时会添加一些emoji和颜文字（例如：💢╬￣皿￣)○），直接进行训练可能导致数据污染，我们建议在tokenizer中添加对颜文字及emoji的特别处理以避免在分词阶段被切分，例如： ```python from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased") new_tokens = [ # 颜文字 "(^_^)", "(*^_^*)", "(✿◠‿◠)", "(✧∀✧)", "(✧∇✧)", "(✧∇✧)", # Emoji "❤️", "👍", "💔", "👎", "😄", "😢", "👍", "👎", "👏", "👋", "👍", "👎", ] num_added = tokenizer.add_tokens(new_tokens) model.resize_token_embeddings(len(tokenizer)) # 测试 test_text = "I love you ❤️ and this family 👨‍👩‍👧‍👦 so much! (^_^)" tokens = tokenizer.tokenize(test_text) print(tokens) ``` **数据格式：** .jsonl格式，即每一行都为独立的json对象 ```json { "conversations": [ { "role": "user", "content": "嗨" }, { "role": "assistant", "content": "嗨！这里是Yuki，很高兴与您相遇。请问有什么可以帮助到您的吗？" } ] } ``` **Apache License 2.0**

# Yuki弱智吧问答数据集 **语言：** 简体中文（Chinese-simple） **数据规模：** 1500条 Yuki弱智吧问答数据集是由DanKe Yuki大模型（Large Language Model，LLM）生成的高质量单轮对话数据集，旨在为大语言模型的情感模拟研究提供支撑。本数据集从百度贴吧-弱智吧（https://tieba.baidu.com/f?kw=%E5%BE%AE%E6%99%BA&ie=utf-8&tp=0）与Ruozhiba数据集（https://huggingface.co/datasets/rocksJuicy/ruozhiba）中遴选了1500条问句。由于本数据集部分问句较为刁钻，当前模型生成的回答未必准确，因此本数据集仅可作为对话风格微调的训练数据使用。值得注意的是，Yuki大模型在生成文本时会附带部分emoji与颜文字（例如：💢╬￣皿￣)○），若直接用于模型训练可能引发数据污染，我们建议在分词器（tokenizer）中添加针对颜文字及emoji的特殊处理规则，避免其在分词阶段被误切分，示例代码如下： python from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased") new_tokens = [ # 颜文字 "(^_^)", "(*^_^*)", "(✿◠‿◠)", "(✧∀✧)", "(✧∇✧)", "(✧∇✧)", # Emoji "❤️", "👍", "💔", "👎", "😄", "😢", "👍", "👎", "👏", "👋", "👍", "👎", ] num_added = tokenizer.add_tokens(new_tokens) model.resize_token_embeddings(len(tokenizer)) # 测试 test_text = "I love you ❤️ and this family 👨‍👩‍👧‍👦 so much! (^_^)" tokens = tokenizer.tokenize(test_text) print(tokens) **数据格式：** 采用.jsonl格式，即每一行均为独立的JSON对象，示例如下： json { "conversations": [ { "role": "user", "content": "嗨" }, { "role": "assistant", "content": "嗨！这里是Yuki，很高兴与您相遇。请问有什么可以帮助到您的吗？" } ] } **许可证：** Apache许可证2.0（Apache License 2.0）

提供机构：

maas

创建时间：

2025-09-24

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个包含1500条中文单轮对话的高质量问答数据集，由DanKe Yuki大模型基于百度贴吧弱智吧内容生成，旨在为模拟大语言模型情感的研究提供支持。数据以.jsonl格式提供，采用Apache 2.0许可证，但需注意模型生成时可能包含颜文字和表情符号，建议在分词器中进行特殊处理以避免数据污染。

以上内容由遇见数据集搜集并总结生成