heegyu/orca-math-korean-preference-cleaned
收藏数据集概述
数据集信息
-
特征:
llm: 字符串question: 字符串answer: 字符串question_en: 字符串answer_en: 字符串generated: 字符串label: 布尔值chosen: 字符串rejected: 字符串
-
分割:
train:- 字节数: 1051241760
- 样本数: 192426
-
下载大小: 386947470 字节
-
数据集大小: 1051241760 字节
配置
- 配置名称:
default- 数据文件:
train:data/train-*
- 数据文件:
数据预处理
-
过滤操作:
- 移除数学公式中的空白缩进
- 移除重复生成特定数字的数据
-
示例问题:
죽은 닭의 수 = 400의 40% = 0.40 * 400 = 160마리 닭
预处理代码
-
简化空白: 将连续的空白替换为一个空白,并移除每行的起始空白和空行。
-
重复模式检测:
- 检测特定字符的重复(超过50次)
- 检测特定n-gram的重复(超过4次,n-gram大小为3)
-
代码示例: python from tqdm.auto import tqdm from datasets import load_dataset, Dataset import re from collections import Counter
def simplify_whitespace(text): simplified = re.sub(rs+, , text) simplified = re.sub(r^s+, , simplified, flags=re.MULTILINE) simplified = re.sub(r s* , , simplified) return simplified.strip()
def has_repetition_patterns(text, char_repeat_threshold=50, ngram_repeat_threshold=4, ngram_size=3): char_pattern = r(.)1{ + str(char_repeat_threshold) + ,} if re.search(char_pattern, text): return True return False
dataset = load_dataset("kuotient/orca-math-korean-preference", split="train") new_items = [] for item in tqdm(dataset): item["question"] = simplify_whitespace(item["question"]) item["chosen"] = simplify_whitespace(item["chosen"])
q_repetite = has_repetition_patterns(item["question"]) a_repetite = has_repetition_patterns(item["chosen"]) if not q_repetite and not a_repetite: new_items.append(item)new_ds = Dataset.from_list(new_items) new_ds.push_to_hub("heegyu/orca-math-korean-preference-cleaned")



