lenML/oaast_rm_zh_jieba
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lenML/oaast_rm_zh_jieba
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在解决LLM重复问题,通过使用分词模型对oaast语料进行结巴化数据增强,以提供更强的重复内容拒绝效果。此外,还过滤掉了所有自我认知的微调样本。数据集中包含两个文件:oaast_rm_zh_jieba.jsonl(词级重复)和oaast_rm_zh_sent_jieba.jsonl(句子级重复)。
该数据集旨在解决LLM重复问题,通过使用分词模型对oaast语料进行结巴化数据增强,以提供更强的重复内容拒绝效果。此外,还过滤掉了所有自我认知的微调样本。数据集中包含两个文件:oaast_rm_zh_jieba.jsonl(词级重复)和oaast_rm_zh_sent_jieba.jsonl(句子级重复)。
提供机构:
lenML
原始信息汇总
数据集概述
许可证
- Apache 2.0
语言
- 中文
标签
- human-feedback
数据集大小
- n<1K
数据集描述
- 尝试解决"llm repetition problem",使用分词模型对oaast语料进行“结巴化”数据增强,提供更强的重复内容拒绝效果。
- 过滤掉了所有自我认知的微调样本。
文件列表
oaast_rm_zh_jieba.jsonl: 词级别重复oaast_rm_zh_sent_jieba.jsonl: 句子级别重复



