wckwan/M4LE
收藏数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 问答
- 翻译
- 摘要
- 文本分类
- 文本检索
- 语言:
- 英语
- 中文
- 标签: Long Context
- 规模: 1K<n<10K
介绍
M4LE 是一个多能力、多范围、多任务的双语长上下文评估基准。我们将长上下文理解分为五种不同的能力,具体包括显式单跨度、语义单跨度、显式多跨度、语义多跨度和全局能力。M4LE 包含 36 个任务,涵盖 11 种任务类型和 12 个领域。每个任务构建了 200 个实例,每个上下文长度桶(1K, 2K, 4K, 6K, 8K, 12K, 16K, 24K, 32K)。
使用方法
可以通过指定任务名称加载数据集:
python from datasets import load_dataset tasks = [ "arxiv", "bigpatent_global_cls", "bigpatent_global_sum", "booksum", "c3", "cepsum", "clts+", "cnewsum", "cnnnews", "drcd_explicit-single", "drcd_semantic-single", "duorc", "dureader", "hotpotqa", "lcsts", "marc", "mnds-news_explicit-single", "mnds-news_explicit-multiple", "mnds-news_semantic-multiple", "ncls", "news-commentary-en2zh", "news-commentary-zh2en", "news2016", "newsqa", "nq-open", "online-shopping", "open-subtitles-en2zh", "open-subtitles-zh2en", "pubmed", "tedtalks-en2zh", "tedtalks-zh2en", "thucnews_explicit-single", "thucnews_explicit-multiple", "thucnews_semantic-multiple", "triviaqa", "wiki2019zh", "wikihow", "wikitext-103", "wow", ]
for task in tasks: data = load_dataset(wckwan/M4LE, task, split=test)
格式
每个测试实例遵循以下格式:
yaml { "instruction": "<任务描述>", "input": "<带有一个示例的任务输入>", "answers": ["<答案1>", "<答案2>"], "input_length": <int, 指令和输入的单词数(以空格分隔)>, "total_length": <int, 指令、输入和标准答案的单词数(以空格分隔)>, "length_bucket": <int, 该实例所属的长度桶> }
任务列表
以下是任务的完整列表及其描述:
| 能力 | 任务名称 | 任务类型 | 语言 | 描述 |
|---|---|---|---|---|
| 显式单跨度 | mnds-news_explicit-single | CLS + RET | En | 分类指定的新闻文章。 |
| 显式单跨度 | thucnews_explicit-single | CLS + RET | Zh | 分类指定的新闻文章。 |
| 显式单跨度 | newsqa | QA + RET | En | 根据指定的新闻文章回答问题。 |
| 显式单跨度 | c3 | QA + RET | Zh | 根据教科书摘录回答多选题。 |
| 显式单跨度 | wow | RET | En | 返回与指定主题相关的文章ID。 |
| 显式单跨度 | drcd_explicit-single | RET | Zh | 返回与指定主题相关的文章ID。 |
| 显式单跨度 | cnnnews | SUM + RET | En | 总结指定的新闻文章。 |
| 显式单跨度 | cepsum | SUM + RET | Zh | 总结指定的产品描述。 |
| 显式单跨度 | lcsts | SUM + RET | Zh | 总结指定的新闻文章。 |
| 显式单跨度 | ncls | SUM + RET | En, Zh | 总结指定的新闻文章。 |
| 显式多跨度 | mnds-news_explicit-multiple | CLS + RET | En | 返回属于指定类别的所有文章ID。 |
| 显式多跨度 | thucnews_explicit-multiple | CLS + RET | Zh | 返回属于指定类别的所有文章ID。 |
| 显式多跨度 | marc | CLS + RET | En, Zh | 返回所有正面产品评论的ID。 |
| 显式多跨度 | online-shopping | CLS + RET | Zh | 返回所有正面产品评论的ID。 |
| 语义单跨度 | wikitext-103 | NLI + RET | En | 返回延续查询段落的段落ID。 |
| 语义单跨度 | wiki2019zh | NLI + RET | Zh | 返回延续查询段落的段落ID。 |
| 语义单跨度 | duorc | QA | En | 根据多个电影情节回答问题。 |
| 语义单跨度 | nq-open | QA | En | 根据多个维基百科段落回答问题。 |
| 语义单跨度 | dureader | QA | Zh | 根据多个网页片段回答问题。 |
| 语义单跨度 | drcd_semantic-single | QA | Zh | 根据多个维基百科段落回答问题。 |
| 语义单跨度 | wikihow | SUM + RET | En | 根据给定主题总结文章。 |
| 语义单跨度 | news2016 | SUM + RET | Zh | 根据给定标题总结新闻文章。 |
| 语义单跨度 | tedtalks-en2zh/tedtalks-zh2en | TRAN + RET | En, Zh | 根据给定标题翻译Ted Talk脚本。 |
| 语义多跨度 | mnds-news_semantic-multiple | CLS + CNT | En | 返回属于指定类别的新闻文章数量。 |
| 语义多跨度 | thucnews_semantic-multiple | CLS + CNT | Zh | 返回属于指定类别的新闻文章数量。 |
| 语义多跨度 | hotpotqa | QA | En | 根据多个维基百科段落回答问题。 |
| 全局 | bigpatent_global_cls | CLS | En | 分类专利文档。 |
| 全局 | triviaqa | QA | En | 根据网页片段回答问题。 |
| 全局 | arxiv | SUM | En | 总结学术论文。 |
| 全局 | bigpatent_global_sum | SUM | En | 总结专利文档。 |
| 全局 | pubmed | SUM | En | 总结医学论文。 |
| 全局 | booksum | SUM | En | 总结一本书的一个或多个章节。 |
| 全局 | cnewsum | SUM | Zh | 总结新闻文章。 |
| 全局 | clts+ | SUM | Zh | 总结新闻文章。 |
| 全局 | open-subtitles-en2zh/open-subtitles-zh2en | TRAN | En, Zh | 翻译电影字幕。 |
| 全局 | news-commentary-en2zh/news-commentary-zh2en | TRAN | En, Zh | 翻译电影字幕。 |



