five

Scandinavian Embedding Benchmark (SEB)

收藏
arXiv2024-06-04 更新2024-06-21 收录
下载链接:
https://github.com/KennethEnevoldsen/scandinavian-embedding-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
Scandinavian Embedding Benchmark (SEB) 是一个专为斯堪的纳维亚语言设计的全面文本嵌入评估框架。由奥胡斯大学创建,SEB涵盖了24个任务,跨越10个子任务和4个任务类别,旨在评估斯堪的纳维亚语言的文本嵌入质量。数据集包含多种语言和领域,如学术、政府、法律等,确保了广泛的应用覆盖。SEB的创建过程强调了跨语言泛化能力和文化完整性,避免使用翻译数据,以真实反映斯堪的纳维亚语境。该数据集的应用领域包括文本挖掘、语义搜索和特征表示等,旨在解决斯堪的纳维亚语言在文本嵌入评估中的不足。

Scandinavian Embedding Benchmark (SEB) is a comprehensive text embedding evaluation framework designed specifically for Scandinavian languages. Developed by Aarhus University, SEB encompasses 24 tasks spanning 10 subtasks and 4 task categories, with the core objective of evaluating the quality of text embeddings for Scandinavian languages. The dataset covers multiple languages and domains such as academia, government, law and others, ensuring broad coverage of practical applications. The construction of SEB emphasizes cross-lingual generalization ability and cultural integrity, avoiding the use of translated data to faithfully reflect the Scandinavian context. Its application areas include text mining, semantic search, feature representation and other fields, aiming to address the gaps in text embedding evaluation for Scandinavian languages.
提供机构:
奥胡斯大学
创建时间:
2024-06-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作