wckwan/M4LE

Name: wckwan/M4LE
Creator: wckwan
Published: 2023-11-19 04:13:34
License: 暂无描述

Hugging Face2023-11-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wckwan/M4LE

下载链接

链接失效反馈

官方服务：

资源简介：

M4LE是一个多能力、多范围、多任务的双语基准测试，用于评估长上下文理解能力。该数据集将长上下文理解分为五种不同的能力，包括显式单跨度、语义单跨度、显式多跨度、语义多跨度和全局能力。M4LE包含36个任务，涵盖11种任务类型和12个领域。每个任务为不同的上下文长度桶（1K, 2K, 4K, 6K, 8K, 12K, 16K, 24K, 32K）构建了200个实例。数据集支持中英文，并通过自动化方法将短序列任务转换为长序列场景，以全面评估模型的长上下文处理能力。

提供机构：

wckwan

原始信息汇总

数据集概述

基本信息

许可证: MIT
任务类别:
- 问答
- 翻译
- 摘要
- 文本分类
- 文本检索
语言:
- 英语
- 中文
标签: Long Context
规模: 1K<n<10K

介绍

M4LE 是一个多能力、多范围、多任务的双语长上下文评估基准。我们将长上下文理解分为五种不同的能力，具体包括显式单跨度、语义单跨度、显式多跨度、语义多跨度和全局能力。M4LE 包含 36 个任务，涵盖 11 种任务类型和 12 个领域。每个任务构建了 200 个实例，每个上下文长度桶（1K, 2K, 4K, 6K, 8K, 12K, 16K, 24K, 32K）。

使用方法

可以通过指定任务名称加载数据集：

python from datasets import load_dataset tasks = [ "arxiv", "bigpatent_global_cls", "bigpatent_global_sum", "booksum", "c3", "cepsum", "clts+", "cnewsum", "cnnnews", "drcd_explicit-single", "drcd_semantic-single", "duorc", "dureader", "hotpotqa", "lcsts", "marc", "mnds-news_explicit-single", "mnds-news_explicit-multiple", "mnds-news_semantic-multiple", "ncls", "news-commentary-en2zh", "news-commentary-zh2en", "news2016", "newsqa", "nq-open", "online-shopping", "open-subtitles-en2zh", "open-subtitles-zh2en", "pubmed", "tedtalks-en2zh", "tedtalks-zh2en", "thucnews_explicit-single", "thucnews_explicit-multiple", "thucnews_semantic-multiple", "triviaqa", "wiki2019zh", "wikihow", "wikitext-103", "wow", ]

for task in tasks: data = load_dataset(wckwan/M4LE, task, split=test)

格式

每个测试实例遵循以下格式：

yaml { "instruction": "<任务描述>", "input": "<带有一个示例的任务输入>", "answers": ["<答案1>", "<答案2>"], "input_length": <int, 指令和输入的单词数（以空格分隔）>, "total_length": <int, 指令、输入和标准答案的单词数（以空格分隔）>, "length_bucket": <int, 该实例所属的长度桶> }

任务列表

以下是任务的完整列表及其描述：

能力	任务名称	任务类型	语言	描述
显式单跨度	mnds-news_explicit-single	CLS + RET	En	分类指定的新闻文章。
显式单跨度	thucnews_explicit-single	CLS + RET	Zh	分类指定的新闻文章。
显式单跨度	newsqa	QA + RET	En	根据指定的新闻文章回答问题。
显式单跨度	c3	QA + RET	Zh	根据教科书摘录回答多选题。
显式单跨度	wow	RET	En	返回与指定主题相关的文章ID。
显式单跨度	drcd_explicit-single	RET	Zh	返回与指定主题相关的文章ID。
显式单跨度	cnnnews	SUM + RET	En	总结指定的新闻文章。
显式单跨度	cepsum	SUM + RET	Zh	总结指定的产品描述。
显式单跨度	lcsts	SUM + RET	Zh	总结指定的新闻文章。
显式单跨度	ncls	SUM + RET	En, Zh	总结指定的新闻文章。
显式多跨度	mnds-news_explicit-multiple	CLS + RET	En	返回属于指定类别的所有文章ID。
显式多跨度	thucnews_explicit-multiple	CLS + RET	Zh	返回属于指定类别的所有文章ID。
显式多跨度	marc	CLS + RET	En, Zh	返回所有正面产品评论的ID。
显式多跨度	online-shopping	CLS + RET	Zh	返回所有正面产品评论的ID。
语义单跨度	wikitext-103	NLI + RET	En	返回延续查询段落的段落ID。
语义单跨度	wiki2019zh	NLI + RET	Zh	返回延续查询段落的段落ID。
语义单跨度	duorc	QA	En	根据多个电影情节回答问题。
语义单跨度	nq-open	QA	En	根据多个维基百科段落回答问题。
语义单跨度	dureader	QA	Zh	根据多个网页片段回答问题。
语义单跨度	drcd_semantic-single	QA	Zh	根据多个维基百科段落回答问题。
语义单跨度	wikihow	SUM + RET	En	根据给定主题总结文章。
语义单跨度	news2016	SUM + RET	Zh	根据给定标题总结新闻文章。
语义单跨度	tedtalks-en2zh/tedtalks-zh2en	TRAN + RET	En, Zh	根据给定标题翻译Ted Talk脚本。
语义多跨度	mnds-news_semantic-multiple	CLS + CNT	En	返回属于指定类别的新闻文章数量。
语义多跨度	thucnews_semantic-multiple	CLS + CNT	Zh	返回属于指定类别的新闻文章数量。
语义多跨度	hotpotqa	QA	En	根据多个维基百科段落回答问题。
全局	bigpatent_global_cls	CLS	En	分类专利文档。
全局	triviaqa	QA	En	根据网页片段回答问题。
全局	arxiv	SUM	En	总结学术论文。
全局	bigpatent_global_sum	SUM	En	总结专利文档。
全局	pubmed	SUM	En	总结医学论文。
全局	booksum	SUM	En	总结一本书的一个或多个章节。
全局	cnewsum	SUM	Zh	总结新闻文章。
全局	clts+	SUM	Zh	总结新闻文章。
全局	open-subtitles-en2zh/open-subtitles-zh2en	TRAN	En, Zh	翻译电影字幕。
全局	news-commentary-en2zh/news-commentary-zh2en	TRAN	En, Zh	翻译电影字幕。

5,000+

优质数据集

54 个

任务类型

进入经典数据集