Yuki弱智吧问答数据集
收藏魔搭社区2026-05-16 更新2025-09-27 收录
下载链接:
https://modelscope.cn/datasets/DanKe123abc/yuki_ruozhiba_1.5k
下载链接
链接失效反馈官方服务:
资源简介:
# Yuki弱智吧问答数据集
**语言:** 中文(Chinese-simple)
**数据大小:** 1500条
Yuki弱智吧问答数据集 是由 DanKe Yuki大模型生成的高质量单轮对话数据,旨在为大语言模型模拟情感的研究提供方向。本数据集选取了[百度贴吧-弱智吧](https://tieba.baidu.com/f?kw=%E5%BE%AE%E6%99%BA&ie=utf-8&tp=0)和[Ruozhiba 数据集](https://huggingface.co/datasets/rocksJuicy/ruozhiba)中的1500条问题。由于本数据集中的部分问题过于刁钻,目前模型生成的回答不一定正确,本数据集仅作为对话风格的微调数据。
值得注意的是,Yuki 大模型在生成文本时会添加一些emoji和颜文字(例如:💢╬ ̄皿 ̄)○),直接进行训练可能导致数据污染,我们建议在tokenizer中添加对颜文字及emoji的特别处理以避免在分词阶段被切分,例如:
```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
new_tokens = [
# 颜文字
"(^_^)", "(*^_^*)", "(✿◠‿◠)",
"(✧∀✧)", "(✧∇✧)", "(✧∇✧)",
# Emoji
"❤️", "👍", "💔", "👎", "😄", "😢",
"👍", "👎", "👏", "👋", "👍", "👎",
]
num_added = tokenizer.add_tokens(new_tokens)
model.resize_token_embeddings(len(tokenizer))
# 测试
test_text = "I love you ❤️ and this family 👨👩👧👦 so much! (^_^)"
tokens = tokenizer.tokenize(test_text)
print(tokens)
```
**数据格式:**
.jsonl格式,即每一行都为独立的json对象
```json
{
"conversations": [
{
"role": "user",
"content": "嗨"
},
{
"role": "assistant",
"content": "嗨!这里是Yuki,很高兴与您相遇。请问有什么可以帮助到您的吗?"
}
]
}
```
**Apache License 2.0**
# Yuki弱智吧问答数据集
**语言:** 简体中文(Chinese-simple)
**数据规模:** 1500条
Yuki弱智吧问答数据集是由DanKe Yuki大模型(Large Language Model,LLM)生成的高质量单轮对话数据集,旨在为大语言模型的情感模拟研究提供支撑。本数据集从百度贴吧-弱智吧(https://tieba.baidu.com/f?kw=%E5%BE%AE%E6%99%BA&ie=utf-8&tp=0)与Ruozhiba数据集(https://huggingface.co/datasets/rocksJuicy/ruozhiba)中遴选了1500条问句。由于本数据集部分问句较为刁钻,当前模型生成的回答未必准确,因此本数据集仅可作为对话风格微调的训练数据使用。
值得注意的是,Yuki大模型在生成文本时会附带部分emoji与颜文字(例如:💢╬ ̄皿 ̄)○),若直接用于模型训练可能引发数据污染,我们建议在分词器(tokenizer)中添加针对颜文字及emoji的特殊处理规则,避免其在分词阶段被误切分,示例代码如下:
python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
new_tokens = [
# 颜文字
"(^_^)", "(*^_^*)", "(✿◠‿◠)",
"(✧∀✧)", "(✧∇✧)", "(✧∇✧)",
# Emoji
"❤️", "👍", "💔", "👎", "😄", "😢",
"👍", "👎", "👏", "👋", "👍", "👎",
]
num_added = tokenizer.add_tokens(new_tokens)
model.resize_token_embeddings(len(tokenizer))
# 测试
test_text = "I love you ❤️ and this family 👨👩👧👦 so much! (^_^)"
tokens = tokenizer.tokenize(test_text)
print(tokens)
**数据格式:** 采用.jsonl格式,即每一行均为独立的JSON对象,示例如下:
json
{
"conversations": [
{
"role": "user",
"content": "嗨"
},
{
"role": "assistant",
"content": "嗨!这里是Yuki,很高兴与您相遇。请问有什么可以帮助到您的吗?"
}
]
}
**许可证:** Apache许可证2.0(Apache License 2.0)
提供机构:
maas
创建时间:
2025-09-24
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含1500条中文单轮对话的高质量问答数据集,由DanKe Yuki大模型基于百度贴吧弱智吧内容生成,旨在为模拟大语言模型情感的研究提供支持。数据以.jsonl格式提供,采用Apache 2.0许可证,但需注意模型生成时可能包含颜文字和表情符号,建议在分词器中进行特殊处理以避免数据污染。
以上内容由遇见数据集搜集并总结生成



