Multi-LexSum
收藏数据集概述
名称: Multi-LexSum
描述: Multi-LexSum是一个多文档摘要数据集,专注于民事权利诉讼案件的摘要,提供三种粒度的摘要。
更新信息: 数据集已更新至HuggingFace Datasets Hub,可通过allenai/multi_lexsum访问。
数据集使用
快速开始: python from datasets import load_dataset multi_lexsum = load_dataset("allenai/multi_lexsum", name="v20220616") example = multi_lexsum["validation"][0] example["sources"] for sum_len in ["long", "short", "tiny"]: print(example["summary/" + sum_len])
训练模型
模型列表:
| 模型名称 | 输入 | 输出 | 最大输入长度 | 最大输出长度 | Rouge-2分数 |
|---|---|---|---|---|---|
| 摘要源文档(长模型) | |||||
allenai/led-base-16384-multi_lexsum-source-long |
D |
L |
16384 | 1024 | 25.17 |
allenai/led-base-16384-multi_lexsum-source-short |
D |
S |
16384 | 256 | 22.08 |
allenai/led-base-16384-multi_lexsum-source-tiny |
D |
T |
16384 | 128 | 9.84 |
allenai/primera-multi_lexsum-source-long |
D |
L |
4096 | 1024 | 27.32 |
allenai/primera-multi_lexsum-source-short |
D |
S |
4096 | 256 | 21.04 |
allenai/primera-multi_lexsum-source-tiny |
D |
T |
4096 | 128 | 9.26 |
| 摘要摘要 | |||||
allenai/bart-large-multi_lexsum-long-short |
L |
S |
1024 | 256 | 37.02 |
allenai/bart-large-multi_lexsum-long-tiny |
L |
T |
1024 | 256 | 13.05 |
allenai/bart-large-multi_lexsum-short-tiny |
S |
T |
1024 | 128 | 15.20 |
allenai/pegasus-multi_lexsum-long-short |
L |
S |
1024 | 256 | 35.62 |
allenai/pegasus-multi_lexsum-long-tiny |
L |
T |
1024 | 256 | 14.44 |
allenai/pegasus-multi_lexsum-short-tiny |
S |
T |
1024 | 128 | 16.15 |
| 多任务摘要 | |||||
allenai/bart-large-multi_lexsum-source-multitask |
L |
S |
1024 | 1024 | - |
allenai/bart-large-multi_lexsum-long-multitask |
L |
S |
1024 | 256 | - |
许可证
数据集许可证:
- 数据集本身遵循Open Data Commons Attribution License (ODC-By)。
- 案例摘要和元数据遵循Creative Commons Attribution License (CC BY-NC)。
- 源文档为公共领域。
- 商业用户需联系info@clearinghouse.net以获取摘要和元数据的免费使用许可,但限制摘要的重新发布。
- 下载和加载数据集的相应代码遵循Apache License 2.0。
引用
@article{Shen2022MultiLexSum, author = {Zejiang Shen and Kyle Lo and Lauren Yu and Nathan Dahlberg and Margo Schlanger and Doug Downey}, title = {Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities}, journal = {CoRR}, volume = {abs/2206.10883}, year = {2022}, url = {https://doi.org/10.48550/arXiv.2206.10883}, doi = {10.48550/arXiv.2206.10883} }




