webis-touche2020-v3-CSR-L

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/UTokyo-Yokoya-Lab/webis-touche2020-v3-CSR-L

下载链接

链接失效反馈

官方服务：

资源简介：

Touche2020-v3-CodeSwitching 是一个多语言文本嵌入基准（MTEB）数据集，是原始 webis-touche2020-v3 数据集的代码切换版本。该数据集将查询改写为中文-英文和日文-英文的代码切换风格。数据集结构包含原始配置（语料库和默认的相关性判断）以及新增的代码切换查询（中文-英文和日文-英文）。语料库包含 303,732 个文档，测试集包含 2,849 个样本，每种代码切换查询训练集各包含 49 个样本。数据集适用于文本检索任务，支持英语、中文和日语的多语言处理。

创建时间：

2026-04-14

原始信息汇总

数据集概述

基本信息

数据集名称: Touche2020-v3-CodeSwitching
托管地址: https://huggingface.co/datasets/UTokyo-Yokoya-Lab/webis-touche2020-v3-CSR-L
基准: Massive Text Embedding Benchmark (MTEB)
描述: 该数据集是 mteb/webis-touche2020-v3 的语码转换版本，查询被重写为中文-英文和日文-英文的语码转换风格。

语言与特性

语言: 英语 (eng)、中文 (zho)、日语 (jpn)
多语言性: 多语言 (multilingual)
任务类别: 文本检索 (text-retrieval)
标签: mteb, text, code-switching

数据集结构

数据集包含以下配置：

源自原始数据集（未更改）

配置名: corpus
- 描述: 原始语料库文档
- 特征:
  - _id: 字符串
  - title: 字符串
  - text: 字符串
- 数据划分: corpus
- 样本数量: 303,732
配置名: default
- 描述: 原始相关性判断
- 特征:
  - query-id: 字符串
  - corpus-id: 字符串
  - score: 浮点数 (float64)
- 数据划分: test
- 样本数量: 2,849

语码转换新增部分

配置名: queries_zh_en
- 描述: 中文-英文语码转换查询
- 特征:
  - _id: 字符串
  - text: 字符串
  - metadata: 结构体
    - description: 字符串
    - narrative: 字符串
- 数据划分: train
- 样本数量: 49
配置名: queries_ja_en
- 描述: 日文-英文语码转换查询
- 特征:
  - _id: 字符串
  - text: 字符串
  - metadata: 结构体
    - description: 字符串
    - narrative: 字符串
- 数据划分: train
- 样本数量: 49

使用方式

python from datasets import load_dataset

加载语码转换查询

queries_zh = load_dataset("UTokyo-Yokoya-Lab/webis-touche2020-v3-codeswitching", "queries_zh_en") queries_ja = load_dataset("UTokyo-Yokoya-Lab/webis-touche2020-v3-codeswitching", "queries_ja_en")

加载原始配置

corpus = load_dataset("UTokyo-Yokoya-Lab/webis-touche2020-v3-codeswitching", "corpus") qrels = load_dataset("UTokyo-Yokoya-Lab/webis-touche2020-v3-codeswitching", "default")

归属与引用

基于: mteb/webis-touche2020-v3 (MIT License)
原始文献:
- Bondarenko, A., et al. (2020). Overview of Touché 2020: Argument Retrieval.
相关基准文献:
- Enevoldsen, K., et al. (2025). MMTEB: Massive Multilingual Text Embedding Benchmark.
- Muennighoff, N., et al. (2022). MTEB: Massive Text Embedding Benchmark.

搜集汇总

数据集介绍

构建方式

在信息检索与多语言处理领域，webis-touche2020-v3-CSR-L数据集的构建体现了对语言混合现象的深入探索。该数据集以原始的Touché 2020论据检索语料为基础，保留了包含30余万篇文档的原始语料库以及相关的相关性标注。其核心创新在于引入了代码转换查询，通过人工或半自动方式将原始英文查询重写为中文-英文及日文-英文混合风格的查询，形成了两个独立的训练配置，每种语言对均包含49条精心设计的查询，从而为跨语言与混合语言检索研究提供了结构化资源。

特点

该数据集最显著的特征在于其多语言与代码转换的融合设计。它不仅完整继承了原始Touché 2020语料的大规模文档集合与标准测试集，更通过新增的混合语言查询配置，模拟了真实世界中用户使用多种语言词汇进行信息搜索的复杂场景。数据集结构清晰，分为保持不变的原始语料与相关性判断，以及专门构建的中英、日英代码转换查询集，这种设计使得研究者能够在统一的评估框架下，同时考察模型对单一语言、跨语言及语言混合输入的理解与匹配能力。

使用方法

使用该数据集时，研究者可借助Hugging Face的datasets库灵活加载不同配置。通过指定配置名称，可以分别获取原始文档语料、标准测试集的相关性标注，以及两种代码转换查询集。典型的使用流程包括加载混合语言查询进行模型训练或评估，并结合原始语料库完成检索任务。该数据集已集成于大规模文本嵌入基准框架中，便于与现有评估流程对接，为多语言嵌入模型和检索系统在代码转换场景下的性能测评提供了标准化工具。

背景与挑战

背景概述

webis-touche2020-v3-CSR-L数据集源自2020年Touché评测任务，由Webis实验室及多所高校的研究团队共同构建，专注于论证检索这一核心研究问题。该数据集旨在评估系统在复杂论证场景下检索相关文档的能力，为信息检索领域提供了重要的基准资源。其后续衍生的代码切换版本由东京大学Yokoya实验室于2025年发布，通过引入中文-英文与日文-英文混合查询，扩展了多语言与跨语言检索的研究维度，显著推动了文本嵌入模型在真实混合语言环境下的性能评估。

当前挑战

论证检索任务本身面临诸多挑战，包括论证结构的复杂性、推理链条的隐含性以及相关性的主观判断，这些因素使得传统检索模型难以准确捕捉论证意图与文档之间的深层语义关联。在数据集构建过程中，代码切换版本的创建需克服语言混合的自然性与平衡性难题，确保查询在保留原意的同时符合双语使用者的实际表达习惯，并需维持与原始语料库的标注一致性，这对数据改写与质量控制提出了较高要求。

常用场景

经典使用场景

在跨语言信息检索领域，webis-touche2020-v3-CSR-L数据集被广泛用于评估和优化代码切换查询下的文本嵌入模型性能。该数据集通过提供中文-英文和日文-英文混合风格的查询，模拟了多语言用户在自然交流中频繁切换语言的实际场景。研究人员利用其丰富的语料库和相关性标注，系统测试模型在处理混合语言输入时的检索准确性与鲁棒性，为跨语言检索技术的演进提供了关键实验平台。

实际应用

在实际应用中，该数据集支撑了多语言搜索引擎、智能客服系统以及跨文化内容推荐平台的开发与优化。例如，在全球化企业的知识库检索中，系统能够准确理解员工混合使用中英文或日英文提出的技术问题，并返回相关文档。此外，它还为社交媒体内容审核、教育资源的跨语言访问等场景提供了技术验证基础，助力构建更包容的数字信息生态系统。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，包括基于多任务学习的代码切换检索模型、跨语言嵌入的微调策略以及针对混合查询的语义增强方法。这些工作不仅深化了对代码切换现象的理论理解，还催生了如MMTEB等大规模多语言文本嵌入基准的扩展，推动了检索模型在复杂语言环境中的性能突破，为后续多模态与低资源语言检索研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集