Equall/perplexity_evaluation
收藏Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Equall/perplexity_evaluation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于论文《SaulLM-7B: Pioneering the first Legal Large Language Model》中的‘6.3 Perplexity Analysis’部分,包含了SaulLM-7B、Llama2-7B和Mistral-7B在近期文本语料库上的困惑度分数。数据集经过清洗,去除了特殊字符,筛选了具有适当标点和最小长度要求的文本,并使用朴素贝叶斯分类器筛选了简洁文本。数据集包含四个类别:Party Submissions(法律程序中的当事人提交的文件)、Legal Decisions(法律判决或裁决)、Contracts(合同协议)和Legislation(美国国会提出的法案)。
提供机构:
Equall
原始信息汇总
SaulLM-7B 数据集概述
数据集用途
该数据集用于论文 "SaulLM-7B: Pioneering the first Legal Large Language Model" 中的 "6.3 Perplexity Analysis" 部分,包含了 SaulLM-7B、Llama2-7B 和 Mistral-7B 在近期文本语料库上的困惑度得分。
数据清洗
数据清洗过程中,通过 unicodedata 标准化去除了特殊字符,并筛选出具有适当标点符号且至少包含 20 个词的文本。此外,使用朴素贝叶斯分类器进一步筛选文本,判断其是否为简洁的文本片段。
数据分类
数据集包含四个不同类别的文档,每个类别服务于不同的目的:
- Party Submissions: 包含法律程序中各方提交的文件,数据来源于2023年10月1日之后提交的德克萨斯州简报。
- Legal Decisions: 包含法律判决或裁决文件,数据来源于国际投资争端解决中心(ICSID),筛选出2023年10月之后的决定。
- Contracts: 包含合同协议,数据来源于电子数据收集、分析和检索(EDGAR)数据库,重点关注2024年第一季度的数据,以确保排除模型之前见过的数据。
- Legislation: 包含美国国会提出的法案,包括2023年10月1日之后提交给美国众议院或参议院的法案。



