five

基于Wikipedia的检索增强生成

收藏
魔搭社区2025-12-29 更新2025-06-14 收录
下载链接:
https://modelscope.cn/datasets/itpossible/WikiRAG
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset is utilized for retrieval-augmented generation (RAG). The [WikiExtractor tool](https://github.com/attardi/wikiextractor) is used to extract and clean text from [Wikipedia dumps](https://dumps.wikimedia.org/enwiki/) to construct a knowledge base. ## Citations ```bibtex @article{chen2025geofactory, title={GeoFactory: An LLM Performance Enhancement Framework for Geoscience Factual and Inferential Tasks}, author={Chen, Zhou and Wang, Xiao and Zhang, Xinan and Lin, Ming and Liao, Yuanhong and Li, Juanzi and Bai, Yuqi}, journal={Big Earth Data}, year={2025}, month={May}, pages={1--33}, doi={10.1080/20964471.2025.2506291} } ```

本数据集用于检索增强生成(Retrieval-Augmented Generation,RAG)。研究人员借助[WikiExtractor工具](https://github.com/attardi/wikiextractor)从[英文维基百科转储文件](https://dumps.wikimedia.org/enwiki/)中提取并清洗文本,以此构建知识库。 ## 参考文献 bibtex @article{chen2025geofactory, title={《GeoFactory:面向地球科学事实与推理任务的大语言模型(Large Language Model,LLM)性能提升框架》}, author={陈舟、王潇、张西南、林铭、廖远鸿、李娟子、白宇琦}, journal={Big Earth Data}, year={2025}, month={May}, pages={1--33}, doi={10.1080/20964471.2025.2506291} }
提供机构:
maas
创建时间:
2024-12-02
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集专为检索增强生成(RAG)设计,通过WikiExtractor工具从Wikipedia转储中提取和清理文本,以构建知识库。它支持基于Wikipedia内容的知识增强应用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务