five

wckwan/M4LE

收藏
Hugging Face2023-11-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wckwan/M4LE
下载链接
链接失效反馈
官方服务:
资源简介:
M4LE是一个多能力、多范围、多任务的双语基准测试,用于评估长上下文理解能力。该数据集将长上下文理解分为五种不同的能力,包括显式单跨度、语义单跨度、显式多跨度、语义多跨度和全局能力。M4LE包含36个任务,涵盖11种任务类型和12个领域。每个任务为不同的上下文长度桶(1K, 2K, 4K, 6K, 8K, 12K, 16K, 24K, 32K)构建了200个实例。数据集支持中英文,并通过自动化方法将短序列任务转换为长序列场景,以全面评估模型的长上下文处理能力。
提供机构:
wckwan
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别:
    • 问答
    • 翻译
    • 摘要
    • 文本分类
    • 文本检索
  • 语言:
    • 英语
    • 中文
  • 标签: Long Context
  • 规模: 1K<n<10K

介绍

M4LE 是一个多能力、多范围、多任务的双语长上下文评估基准。我们将长上下文理解分为五种不同的能力,具体包括显式单跨度、语义单跨度、显式多跨度、语义多跨度和全局能力。M4LE 包含 36 个任务,涵盖 11 种任务类型和 12 个领域。每个任务构建了 200 个实例,每个上下文长度桶(1K, 2K, 4K, 6K, 8K, 12K, 16K, 24K, 32K)。

使用方法

可以通过指定任务名称加载数据集:

python from datasets import load_dataset tasks = [ "arxiv", "bigpatent_global_cls", "bigpatent_global_sum", "booksum", "c3", "cepsum", "clts+", "cnewsum", "cnnnews", "drcd_explicit-single", "drcd_semantic-single", "duorc", "dureader", "hotpotqa", "lcsts", "marc", "mnds-news_explicit-single", "mnds-news_explicit-multiple", "mnds-news_semantic-multiple", "ncls", "news-commentary-en2zh", "news-commentary-zh2en", "news2016", "newsqa", "nq-open", "online-shopping", "open-subtitles-en2zh", "open-subtitles-zh2en", "pubmed", "tedtalks-en2zh", "tedtalks-zh2en", "thucnews_explicit-single", "thucnews_explicit-multiple", "thucnews_semantic-multiple", "triviaqa", "wiki2019zh", "wikihow", "wikitext-103", "wow", ]

for task in tasks: data = load_dataset(wckwan/M4LE, task, split=test)

格式

每个测试实例遵循以下格式:

yaml { "instruction": "<任务描述>", "input": "<带有一个示例的任务输入>", "answers": ["<答案1>", "<答案2>"], "input_length": <int, 指令和输入的单词数(以空格分隔)>, "total_length": <int, 指令、输入和标准答案的单词数(以空格分隔)>, "length_bucket": <int, 该实例所属的长度桶> }

任务列表

以下是任务的完整列表及其描述:

能力 任务名称 任务类型 语言 描述
显式单跨度 mnds-news_explicit-single CLS + RET En 分类指定的新闻文章。
显式单跨度 thucnews_explicit-single CLS + RET Zh 分类指定的新闻文章。
显式单跨度 newsqa QA + RET En 根据指定的新闻文章回答问题。
显式单跨度 c3 QA + RET Zh 根据教科书摘录回答多选题。
显式单跨度 wow RET En 返回与指定主题相关的文章ID。
显式单跨度 drcd_explicit-single RET Zh 返回与指定主题相关的文章ID。
显式单跨度 cnnnews SUM + RET En 总结指定的新闻文章。
显式单跨度 cepsum SUM + RET Zh 总结指定的产品描述。
显式单跨度 lcsts SUM + RET Zh 总结指定的新闻文章。
显式单跨度 ncls SUM + RET En, Zh 总结指定的新闻文章。
显式多跨度 mnds-news_explicit-multiple CLS + RET En 返回属于指定类别的所有文章ID。
显式多跨度 thucnews_explicit-multiple CLS + RET Zh 返回属于指定类别的所有文章ID。
显式多跨度 marc CLS + RET En, Zh 返回所有正面产品评论的ID。
显式多跨度 online-shopping CLS + RET Zh 返回所有正面产品评论的ID。
语义单跨度 wikitext-103 NLI + RET En 返回延续查询段落的段落ID。
语义单跨度 wiki2019zh NLI + RET Zh 返回延续查询段落的段落ID。
语义单跨度 duorc QA En 根据多个电影情节回答问题。
语义单跨度 nq-open QA En 根据多个维基百科段落回答问题。
语义单跨度 dureader QA Zh 根据多个网页片段回答问题。
语义单跨度 drcd_semantic-single QA Zh 根据多个维基百科段落回答问题。
语义单跨度 wikihow SUM + RET En 根据给定主题总结文章。
语义单跨度 news2016 SUM + RET Zh 根据给定标题总结新闻文章。
语义单跨度 tedtalks-en2zh/tedtalks-zh2en TRAN + RET En, Zh 根据给定标题翻译Ted Talk脚本。
语义多跨度 mnds-news_semantic-multiple CLS + CNT En 返回属于指定类别的新闻文章数量。
语义多跨度 thucnews_semantic-multiple CLS + CNT Zh 返回属于指定类别的新闻文章数量。
语义多跨度 hotpotqa QA En 根据多个维基百科段落回答问题。
全局 bigpatent_global_cls CLS En 分类专利文档。
全局 triviaqa QA En 根据网页片段回答问题。
全局 arxiv SUM En 总结学术论文。
全局 bigpatent_global_sum SUM En 总结专利文档。
全局 pubmed SUM En 总结医学论文。
全局 booksum SUM En 总结一本书的一个或多个章节。
全局 cnewsum SUM Zh 总结新闻文章。
全局 clts+ SUM Zh 总结新闻文章。
全局 open-subtitles-en2zh/open-subtitles-zh2en TRAN En, Zh 翻译电影字幕。
全局 news-commentary-en2zh/news-commentary-zh2en TRAN En, Zh 翻译电影字幕。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作