mteb/arena-wikipedia-7-15-24
收藏Hugging Face2024-07-29 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/mteb/arena-wikipedia-7-15-24
下载链接
链接失效反馈官方服务:
资源简介:
`mteb/arena-wikipedia-7-15-24`数据集是一个包含截至2024年7月15日维基百科文章的综合性数据集,专为MTEB(大规模文本嵌入基准)Arena设计,用于评估各种嵌入模型的性能。数据集中的每个实例代表维基百科文章的一个片段,包含标题、唯一标识符和文本内容。数据集创建过程包括从CirrusSearch格式的维基百科转储中提取内容,使用`mwparserfromhell`库解析文本,并将文章分块为约200字的片段。数据集仅包含基于页面浏览量的前500,000篇最受欢迎的文章。使用该数据集时应注意文化、语言、时间和流行度偏见,并遵循维基百科的CC-BY-SA许可。
The `mteb/arena-wikipedia-7-15-24` dataset is a comprehensive collection of Wikipedia articles up to July 15, 2024. It is designed for use in the MTEB (Massive Text Embedding Benchmark) Arena, where various embedding models compete and are ranked based on their performance. Each instance in the dataset represents a chunk of a Wikipedia article and contains the title, a unique identifier, and the article content. The dataset is created by parsing a Wikipedia dump in CirrusSearch format and includes only the top 500,000 most popular articles.
提供机构:
mteb



