five

Zhaoming213/baiduwiki

收藏
Hugging Face2026-03-16 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Zhaoming213/baiduwiki
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 --- ## 数据集介绍 这是百度百科数据集,对原始数据集进行了简单清洗,最终变成了类似:{"text":....}对结构,jsonl文件。 ## 清洗代码 ``` import json input_file = "百度百科.jsonl" output_file = "filtered_data.jsonl" with open(input_file, 'r', encoding='utf-8') as infile, \ open(output_file, 'w', encoding='utf-8') as outfile: for line in infile: if not line.strip(): continue try: data = json.loads(line) outfile.write(json.dumps(data, ensure_ascii=False) + '\n') except json.JSONDecodeError: continue
提供机构:
Zhaoming213
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作