LexRAG对话数据集|法律文本分析数据集|对话系统数据集
收藏LexRAG 数据集概述
数据集简介
LexRAG 是一个用于法律领域检索增强生成(Retrieval-Augmented Generation, RAG)的基准数据集。该数据集通过 LexiT 工具包提供,包含用于多轮法律咨询对话的数据、管道处理工具和评估方法。
数据组件
- 多轮对话:数据集包含 1,013 个多轮对话,每个对话有 5 轮问题和回答。
- 语料库:包含来自三个不同来源的原始数据,包括法律文章、法律书籍和法律案例。法律文章包含 17,228 条中国法定法律条文。
- 存储路径:
- 对话数据:
./data/dataset.json
- 语料库数据:
./data/law_library.jsonl
- 对话数据:
管道组件
处理器(Processor)
- 转换对话为查询,支持多种查询构建策略。
- 处理器配置和运行示例见
./src/pipeline.py
。
检索器(Retriever)
- 支持密集检索和稀疏检索。
- 密集检索使用 Faiss 索引,支持 BGE 和 GTE 模型。
- 稀疏检索使用 Pyserini 库实现 BM25 和 QLD。
- 检索结果存储路径:
./data/retrieval/
。
生成器(Generator)
- 支持主流语言模型生成回答。
- 支持自定义输入提示。
- 生成结果存储路径:
./data/generated_responses.jsonl
。
评估组件
- 生成评估器:支持 ROUGE、BLEU、METEOR 和 BERTScore 等自动化指标。
- 检索评估器:支持 NDCG、Recall、MRR、Precision 和 F1 等指标。
- LLM 评估:通过多维度链式思维推理评估回答质量。
以上信息基于 LexRAG 数据集的 README 文件内容整理而成。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录