IndicCrosslingualSTS

Hugging Face2024-11-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/mteb/IndicCrosslingualSTS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言对的句子对及其评分。每个配置包含两个句子（sentence1和sentence2）和一个评分（score），用于评估句子对的相似性或相关性。数据集主要用于测试目的，每个测试集包含256个样本。

创建时间：

2024-11-30

原始信息汇总

IndicCrosslingualSTS 数据集概述

数据集配置

配置列表

en-as
en-bn
en-gu
en-hi
en-kn
en-ml
en-mr
en-or
en-pa
en-ta
en-te
en-ur

每个配置的详细信息

en-as

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 60945
  - num_examples: 256
下载大小: 35376
数据集大小: 60945

en-bn

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 67460
  - num_examples: 256
下载大小: 38088
数据集大小: 67460

en-gu

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 64786
  - num_examples: 256
下载大小: 37140
数据集大小: 64786

en-hi

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 92497
  - num_examples: 256
下载大小: 51498
数据集大小: 92497

en-kn

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 77385
  - num_examples: 256
下载大小: 42987
数据集大小: 77385

en-ml

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 79979
  - num_examples: 256
下载大小: 44196
数据集大小: 79979

en-mr

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 75928
  - num_examples: 256
下载大小: 43383
数据集大小: 75928

en-or

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 57794
  - num_examples: 256
下载大小: 32315
数据集大小: 57794

en-pa

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 75532
  - num_examples: 256
下载大小: 43175
数据集大小: 75532

en-ta

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 87284
  - num_examples: 256
下载大小: 43472
数据集大小: 87284

en-te

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 79011
  - num_examples: 256
下载大小: 43790
数据集大小: 79011

en-ur

特征:
- sentence1: string
- sentence2: string
- score: float64
分割:
- test:
  - num_bytes: 72395
  - num_examples: 256
下载大小: 46115
数据集大小: 72395

数据文件路径

en-as: en-as/test-*
en-bn: en-bn/test-*
en-gu: en-gu/test-*
en-hi: en-hi/test-*
en-kn: en-kn/test-*
en-ml: en-ml/test-*
en-mr: en-mr/test-*
en-or: en-or/test-*
en-pa: en-pa/test-*
en-ta: en-ta/test-*
en-te: en-te/test-*
en-ur: en-ur/test-*

搜集汇总

数据集介绍

构建方式

IndicCrosslingualSTS数据集的构建旨在评估跨语言语义相似度任务，涵盖了多种印度语言与英语的配对。该数据集通过精心挑选的句子对，每个句子对均包含两个句子（sentence1和sentence2）以及一个表示语义相似度的分数（score）。数据集的构建过程中，确保了每种语言配对的测试集规模一致，均为256个样本，从而为跨语言语义相似度模型提供了标准化的评估基准。

使用方法

IndicCrosslingualSTS数据集主要用于评估和训练跨语言语义相似度模型。用户可以通过加载数据集中的不同语言配对（如en-as、en-bn等）来获取相应的测试数据。每个样本包含两个句子及其语义相似度分数，用户可以利用这些数据进行模型训练或评估。数据集的结构化设计使得其在HuggingFace等平台上易于加载和使用，为跨语言自然语言处理研究提供了便捷的资源。

背景与挑战

背景概述

IndicCrosslingualSTS数据集聚焦于跨语言语义文本相似度（STS）任务，旨在评估不同语言对之间的语义相似性。该数据集涵盖了多种印度语言与英语的配对，包括阿萨姆语（as）、孟加拉语（bn）、古吉拉特语（gu）、印地语（hi）、卡纳达语（kn）、马拉雅拉姆语（ml）、马拉地语（mr）、奥里亚语（or）、旁遮普语（pa）、泰米尔语（ta）、泰卢固语（te）和乌尔都语（ur）。通过提供句子对及其相似度评分，该数据集为跨语言自然语言处理研究提供了宝贵的资源，尤其是在多语言语义理解与匹配领域。

当前挑战

IndicCrosslingualSTS数据集面临的挑战主要集中在跨语言语义匹配的复杂性上。不同语言之间的语法结构、词汇表达和文化背景差异显著，导致语义相似度的准确评估极具挑战性。此外，数据集的构建过程中，如何确保句子对的标注质量与一致性也是一个重要问题。尽管该数据集为跨语言STS研究提供了丰富的资源，但如何有效利用这些数据，提升模型在多语言环境下的泛化能力，仍是当前研究的重点与难点。

常用场景

经典使用场景

IndicCrosslingualSTS数据集在跨语言语义相似度任务中展现了其经典应用价值。该数据集通过提供英语与多种印度语言（如孟加拉语、印地语、泰米尔语等）之间的句子对及其相似度评分，为研究者提供了一个评估跨语言语义理解能力的基准。研究者可以利用该数据集训练和评估模型，以检测其在不同语言对之间的语义匹配能力，从而推动跨语言自然语言处理技术的发展。

解决学术问题

IndicCrosslingualSTS数据集有效解决了跨语言语义相似度评估中的关键学术问题。通过提供多语言对及其精确的相似度评分，该数据集为研究者提供了一个标准化的测试平台，用以评估和比较不同跨语言模型的性能。这不仅有助于提升模型的跨语言理解能力，还为多语言信息检索、机器翻译等领域提供了重要的理论支持和技术参考。

实际应用

在实际应用中，IndicCrosslingualSTS数据集为多语言信息处理系统的设计与优化提供了有力支持。例如，在多语言客服系统中，该数据集可以帮助训练模型，使其能够准确理解并匹配不同语言的用户查询；在跨语言文档检索中，该数据集则有助于提升检索系统的精度和效率。此外，该数据集还在多语言教育、文化交流等领域展现出广泛的应用潜力。

数据集最近研究