Legal Summarization|法律摘要数据集|文本摘要数据集
收藏数据集概述
数据集名称
Legal Summarization
数据集描述
该数据集用于法律文档摘要任务,包含详细的法律文本及其相应的简洁摘要。这些数据对旨在有效地训练模型进行摘要任务。
数据集来源
原始数据集来源于关于法律文档摘要的学术出版物。
数据集结构
数据集包括成对的长篇法律文本和它们的摘要,结构化以有效地训练模型进行摘要任务。
数据集用途
该数据集主要用于展示如何对Meta-Llama-3-8B-Instruct模型进行微调,以适应法律文档的摘要任务。
数据集特点
- 模型适应性:用于适应Meta-Llama-3-8B-Instruct模型以摘要法律文本的技术。
- 性能评估:用于评估模型在法律文档上摘要质量的指标和方法。
- 微调指导:逐步指导如何对大型语言模型进行微调和测试。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录