Limour/b-corpus
收藏Hugging Face2024-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Limour/b-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个中文长文本语料库,特别关注带有角色标注的视觉小说对话。数据经过严格的清洗和去重处理,每个文件代表一个完整的对话,格式为`{NAME}:{DIALOGUE}`。数据集包含一些涉及错误世界观和道德伦理的内容,以及一些成人内容。数据集的来源包括从其他数据集翻译的内容,并且数据按制作会社和作品名进行了整理。
This dataset is a Chinese long-text corpus, particularly focusing on dialogues from visual novels with character annotations. The data has undergone rigorous cleaning and deduplication processes, with each file representing a complete dialogue in the format `{NAME}: {DIALOGUE}`. The dataset includes content that involves erroneous worldviews and moral ethics, as well as some adult content. The sources of the dataset include translations from other datasets, and the data has been organized by production company and work title.
提供机构:
Limour
原始信息汇总
数据集概述
基本信息
- 许可证:cc-by-nc-sa-4.0
- 任务类别:text-generation
- 语言:zh
- 标签:not-for-all-audiences
数据集描述
- 内容:纯手工用眼睛和手细细切做臊子的中文长文本语料
- 下载命令: shell $env:HF_ENDPOINT="https://hf-mirror.com"; python -c "from huggingface_hub import snapshot_download; snapshot_download(repo_id=Limour/b-corpus, repo_type=dataset, local_dir=rD:datasets mp)"
数据清洗与处理
- 清洗要求:
- 全角转半角
- 繁体转简体
- 内部去重:
- 重复字符处理
- 重复短语处理
- 重复段落处理
- 杂项处理:
- 特定字符处理
- 错字修正:
- 常见错别字修正
- 边界字符修正:
- 特定边界字符修正
文件格式
- 对话文件:一个完整对话为一个文件
- 行格式:
{NAME}:{DIALOGUE}(:为中文冒号) - 旁白标识:旁白的 {NAME} 为
旁白 - 未知人物标识:未知人物的 {NAME} 为
? - 主角标识:可以从旁白推断的主角的 {NAME} 为
我/名字,否则为名字 - 主角名字变化:如万华镜等主角名字改变的,
名字变,我/不变
数据多样性
- 多样性来源:除
b-corpus视觉小说format外的语料的作用是增加多样性 - 特殊内容保留:完整保留涩涩内容,部分内容涉及错误世界观和道德伦理
- 多视角语料:部分多视角的语料,随着旁白的改变,主角也可能会改变
其他信息
- 英文语料来源:
b-corpusv-corpus-en来自 alpindale/visual-novels,或许可以翻译成中文 - 数据整理:将数据按
制作会社作品名进行了整理,并修复了一些小错误,保存在v-corpus-zh目录下
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个中文文本生成数据集,包含敏感内容,适用于非商业用途。
以上内容由遇见数据集搜集并总结生成



