基于Wikipedia的检索增强生成
收藏魔搭社区2025-12-29 更新2025-06-14 收录
下载链接:
https://modelscope.cn/datasets/itpossible/WikiRAG
下载链接
链接失效反馈官方服务:
资源简介:
This dataset is utilized for retrieval-augmented generation (RAG). The [WikiExtractor tool](https://github.com/attardi/wikiextractor) is used to extract and clean text from [Wikipedia dumps](https://dumps.wikimedia.org/enwiki/) to construct a knowledge base.
## Citations
```bibtex
@article{chen2025geofactory,
title={GeoFactory: An LLM Performance Enhancement Framework for Geoscience Factual and Inferential Tasks},
author={Chen, Zhou and Wang, Xiao and Zhang, Xinan and Lin, Ming and Liao, Yuanhong and Li, Juanzi and Bai, Yuqi},
journal={Big Earth Data},
year={2025},
month={May},
pages={1--33},
doi={10.1080/20964471.2025.2506291}
}
```
本数据集用于检索增强生成(Retrieval-Augmented Generation,RAG)。研究人员借助[WikiExtractor工具](https://github.com/attardi/wikiextractor)从[英文维基百科转储文件](https://dumps.wikimedia.org/enwiki/)中提取并清洗文本,以此构建知识库。
## 参考文献
bibtex
@article{chen2025geofactory,
title={《GeoFactory:面向地球科学事实与推理任务的大语言模型(Large Language Model,LLM)性能提升框架》},
author={陈舟、王潇、张西南、林铭、廖远鸿、李娟子、白宇琦},
journal={Big Earth Data},
year={2025},
month={May},
pages={1--33},
doi={10.1080/20964471.2025.2506291}
}
提供机构:
maas
创建时间:
2024-12-02
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集专为检索增强生成(RAG)设计,通过WikiExtractor工具从Wikipedia转储中提取和清理文本,以构建知识库。它支持基于Wikipedia内容的知识增强应用。
以上内容由遇见数据集搜集并总结生成



