five

Swiss Case Law Open Dataset

收藏
github2026-03-08 更新2026-03-07 收录
下载链接:
https://github.com/jonashertner/caselaw-repo-1
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含来自瑞士所有联邦法院和26个州的93万+法院判决的结构化、可搜索的数据集。数据集包含全文、结构化元数据、四种语言(德/法/意/罗曼什语),每日更新。这是瑞士判例法最大的公开集合。

This is a structured, searchable dataset comprising over 930,000 court judgments from all Swiss federal courts and the 26 cantons. The dataset includes full case texts, structured metadata, and covers four languages: German, French, Italian, and Romansh. It is updated daily and constitutes the largest publicly available collection of Swiss case law.
创建时间:
2026-02-09
原始信息汇总

Swiss Case Law Open Dataset 概述

数据集基本信息

  • 名称:Swiss Case Law Open Dataset
  • 规模:超过 930,000 份法院判决
  • 来源:瑞士所有联邦法院及 26 个州法院
  • 内容:判决全文及结构化元数据
  • 语言:四种语言(德语/法语/意大利语/罗曼什语)
  • 更新频率:每日更新
  • 性质:瑞士判例法最大的开放集合

数据内容与结构

  • 每份判决包含:判决全文、案卷号、日期、语言、法律领域、法官、被引判决以及 20 多个额外的元数据字段。
  • 数据构建方式:通过直接抓取官方法院网站和州法院门户网站构建。新判决每晚被抓取、去重并发布。
  • 本地数据库结构(若下载):
    • parquet/ 目录:包含从 HuggingFace 下载的 Parquet 文件(约 7 GB),按法院分 89 个文件。
    • decisions.db:SQLite FTS5 全文搜索索引(约 58 GB),包含 decisionsdecisions_fts 两个表。
    • reference_graph.db:引用关系图数据库(785 万条边,约 3.5 GB)。
    • statutes.db:联邦法律条文数据库(来自 Fedlex,约 42 MB)。

获取与使用方式

提供六种主要使用方式,具体如下:

1. 通过 AI 搜索(使用 MCP 服务器)

  • 描述:通过 MCP 服务器提供的 19 种工具,使用自然语言在所有判决中搜索、查找联邦法律条文、分析引用网络等。
  • 远程服务器(推荐)
    • 地址https://mcp.opencaselaw.ch
    • 设置:约 30 秒,无需本地数据或数据库。
    • 支持平台:Claude.ai / Claude Desktop、ChatGPT、Gemini CLI、Google ADK。
    • 数据新鲜度:每晚自动更新。
  • 本地服务器(离线访问)
    • 要求:需克隆代码库并设置本地环境,总磁盘占用约 65 GB。
    • 设置时间:30-60 分钟。
    • 更新:需手动运行 update_database 工具以获取最新数据。
  • 可用工具:包括 search_decisions(全文搜索)、get_decision(按 ID 获取判决)、find_citations(查找引用)、get_law(查找法律条文)等 19 种工具。

2. 下载数据集

  • 目标用户:数据科学家、NLP 研究人员。
  • 内容:包含所有超过 93 万份判决的批量 Parquet 文件。
  • 来源:HuggingFace 数据集页面(https://huggingface.co/datasets/voilaj/swiss-caselaw)。

3. REST API

  • 目标用户:开发者。
  • 描述:提供程序化的行级数据访问,无需设置。

4. Web UI

  • 目标用户:所有人。
  • 描述:聊天界面——可提问并获得附有引用判决的答案。
  • 在线仪表板https://opencaselaw.ch

特色功能与工具

引用关系图工具

基于包含 785 万条引用边的图数据库,提供:

  • find_citations:显示判决的引用与被引用情况。
  • find_appeal_chain:追踪上诉链。
  • find_leading_cases:查找被引用最多的主导案例。
  • analyze_legal_trend:按年份分析特定主题或法条判例的趋势。

法律条文查询工具

基于包含 40 多部联邦法律、25000 多个条文的 Fedlex 数据库,提供:

  • get_law:通过 SR 编号或缩写查找法律及具体条文全文。
  • search_laws:在所有法律条文全文进行搜索。

立法查询工具

提供对瑞士各级立法(联邦及所有 26 个州)的访问:

  • search_legislation:通过 LexFind.ch 搜索 33000 多份立法文本。
  • get_legislation:通过 LexFind ID 或 SR 编号获取特定法律的详细信息。
  • browse_legislation_changes:浏览各州或联邦层面的近期立法变更。

技术细节

  • 搜索流程:查询意图识别 → 多策略 FTS5 查询 → 通过 Reciprocal Rank Fusion 融合结果 → 使用复合信号(BM25、术语覆盖、短语匹配等)重新排序 → 选择最佳文本片段返回。
  • 全文搜索索引:使用 SQLite FTS5,分词器为 unicode61 remove_diacritics 2,支持德语、法语、意大利语和罗曼什语的重音字符处理。
  • 许可证:MIT 许可证。

相关资源链接

  • GitHub 仓库https://github.com/jonashertner/caselaw-repo-1
  • HuggingFace 数据集https://huggingface.co/datasets/voilaj/swiss-caselaw
  • 在线仪表板https://opencaselaw.ch
  • MCP 服务器地址https://mcp.opencaselaw.ch
  • 完整 MCP 设置指南https://github.com/jonashertner/caselaw-repo-1/blob/main/docs/claude-desktop-setup.md
  • Claude Desktop 设置指南https://github.com/jonashertner/caselaw-repo-1/blob/main/docs/claude-desktop-setup.md
搜集汇总
数据集介绍
main_image_url
构建方式
在司法数据开放运动的背景下,瑞士判例法开放数据集通过系统化的网络爬取技术构建而成。其数据源直接指向瑞士联邦及各州法院的官方网站与门户,确保了信息的权威性与时效性。构建流程实现了自动化,每日夜间执行爬取任务,对新判例进行抓取、去重与发布,从而形成了一个持续动态更新的结构化档案库。该数据集以Parquet文件格式存储,并通过SQLite FTS5技术建立了全文检索索引,为高效的数据访问与分析奠定了坚实基础。
特点
该数据集的核心特征在于其规模宏大、结构完整且多语言覆盖。它收录了超过93万份来自瑞士联邦各级法院及全部26个州的司法裁决,每份裁决均包含完整的判决文本以及案号、日期、语言、法律领域、法官信息、引用判例等超过20个元数据字段。数据集支持德语、法语、意大利语和罗曼什语四种官方语言,体现了瑞士多法域的法律生态。其每日更新的机制保证了内容的鲜活度,而内置的引用关系图谱与联邦法律条文数据库,进一步拓展了其在法律网络分析与条文关联研究方面的独特价值。
使用方法
针对不同用户需求,数据集提供了多样化的访问途径。对于法律从业者与研究人员,最便捷的方式是通过远程MCP服务器,在Claude、ChatGPT或Gemini等AI平台中直接使用自然语言进行全文检索、引用网络分析或法律条文查询,无需本地部署。数据科学家与开发者可选择下载完整的Parquet文件进行批量分析,或通过REST API进行程序化调用。对于需要离线环境或完全控制数据的用户,则可通过本地部署MCP服务器,在约65GB的本地存储上构建完整的SQLite数据库与全文索引,实现自主的数据管理与分析。
背景与挑战
背景概述
瑞士判例法开放数据集于近年由独立研究者构建,旨在系统化整合瑞士联邦及各州法院的司法裁决文献。该数据集收录超过九十三万份裁判文书,涵盖德语、法语、意大利语和罗曼什语四种官方语言,每日持续更新,成为目前规模最大的瑞士司法判例开放资源。其核心研究问题聚焦于如何通过结构化数据与智能检索技术,突破传统法律文献检索的时空限制,为法律实证研究、司法透明度提升以及人工智能辅助法律分析提供基础支撑。该数据集通过直接抓取官方法院门户网站构建,不仅包含完整裁判文书文本,还系统标注了案号、日期、法庭组成、法律领域及引用关系等二十余项元数据,为计算法学研究范式提供了关键基础设施。
当前挑战
该数据集致力于解决法律信息检索与知识挖掘领域的核心挑战:如何在海量多语种司法文本中实现精准语义检索与关联分析。具体挑战包括跨语言法律术语对齐、裁判文书非结构化文本的标准化处理、以及司法引用网络的动态构建与验证。在构建过程中面临多重技术障碍:需实时同步分散于二十六州及联邦层级的异构数据源,处理不同法院系统的数据格式差异;需设计高效的多语言全文检索架构以支撑近百万文档的即时查询;同时需确保数据抓取过程符合瑞士司法数据开放政策与隐私保护要求。此外,裁判文书中的法律条文引用识别与链接、司法先例的权威性评估、以及随时间演进的法律概念演化追踪,均为数据集构建与后续应用带来持续性挑战。
常用场景
经典使用场景
在瑞士法律信息学领域,该数据集最经典的使用场景是作为大规模法律文本分析的基础语料库。研究人员通过其包含的93万余份法院裁决全文及结构化元数据,能够系统性地开展法律语言模式识别、司法裁决预测模型构建以及跨法域比较研究。数据集涵盖联邦最高法院至各州法院的完整司法层级,且每日更新机制确保了研究材料的时效性与连续性,为法律实证研究提供了前所未有的数据规模与覆盖广度。
解决学术问题
该数据集有效解决了法律人工智能领域长期存在的若干关键问题:首先,它通过多语言(德/法/意/罗曼什语)平行文本缓解了法律自然语言处理中的语料稀缺困境;其次,结构化元数据与引证网络的结合使得司法先例演化分析成为可能;再者,其覆盖全司法层级的特性支持了法律统一性研究的实证检验。这些特性共同推动了计算法学从理论探讨向实证研究的范式转变,为法律知识图谱构建、司法决策透明度提升等核心议题提供了数据基础。
衍生相关工作
基于该数据集衍生的经典工作主要集中在三个方向:一是引证网络分析领域,学者利用其785万条引证关系构建了瑞士司法先例演化图谱,揭示了判例法体系的动态结构;二是法律预测模型开发,研究者通过机器学习方法对裁决结果进行预测,推动了司法人工智能的实践应用;三是多语言法律信息检索系统的构建,相关研究解决了法律术语跨语言对齐的技术难题。这些工作共同构成了瑞士计算法学研究的基础框架,并影响了欧盟数字司法战略的实施路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作