five

FineWeb2-embedded

收藏
魔搭社区2025-11-27 更新2025-09-27 收录
下载链接:
https://modelscope.cn/datasets/epfml/FineWeb2-embedded
下载链接
链接失效反馈
官方服务:
资源简介:
# FineWeb2-embedded ## Dataset summary FineWeb2-embedded is an extension of the [**FineWeb2**](https://huggingface.co/datasets/HuggingFaceFW/fineweb-2) dataset, annotated with **document-level** [**XLM-RoBERTa**](https://huggingface.co/FacebookAI/xlm-roberta-base) **embeddings** for **20 languages**, making the dataset **useful for a variety of tasks**, including document clustering, filtering, and other multilingual research. Since XLM-RoBERTa has a sequence length limit of 512 tokens, each document's **embeddings are obtained by mean-pooling 512 token chunks of the XLM-RoBERTa output**. Therefore, longer texts have more embeddings available (one per 512 tokens). The embeddings were initially computed as part of our [**FineWeb2-HQ**](https://huggingface.co/datasets/epfml/FineWeb2-HQ) dataset (a high-quality subset of FineWeb2). However, we believe that they can be useful for other multilingual research and applications. For more details, see our paper [Enhancing Multilingual LLM Pretraining with Model-Based Data Selection](https://arxiv.org/abs/2502.10361). ## Languages and subsets |Subset name|Language name|Number of documents|Disk size| |----------|-----------------|------------:|----------:| | rus_Cyrl | Russian | 605,468,615 | 5.3T | | cmn_Hani | Chinese | 578,332,129 | 4.4T | | deu_Latn | German | 427,700,394 | 2.5T | | spa_Latn | Spanish | 405,634,303 | 2.3T | | jpn_Jpan | Japanese | 376,134,745 | 2.4T | | fra_Latn | French | 332,646,715 | 2.0T | | ita_Latn | Italian | 219,117,921 | 1.3T | | por_Latn | Portuguese | 189,851,449 | 1.1T | | pol_Latn | Polish | 138,337,436 | 794G | | nld_Latn | Dutch | 133,855,612 | 720G | | ind_Latn | Indonesian | 92,992,647 | 537G | | tur_Latn | Turkish | 88,769,907 | 487G | | ces_Latn | Czech | 62,703,458 | 390G | | arb_Arab | Arabic | 57,752,149 | 363G | | fas_Arab | Persian | 51,043,666 | 322G | | hun_Latn | Hungarian | 46,879,826 | 328G | | swe_Latn | Swedish | 45,329,979 | 261G | | ell_Grek | Greek | 44,202,550 | 267G | | dan_Latn | Danish | 42,975,661 | 262G | | vie_Latn | Vietnamese | 40,741,340 | 298G | We might consider adding new languages supported by the XLM-RoBERTa model to an upcoming version of the present dataset. ## Dataset structure ### Data fields Each data entry includes the original [FineWeb2 data fields](https://huggingface.co/datasets/HuggingFaceFW/fineweb-2#data-fields) with the addition of: - `embeddings`: array of float arrays containing 768-dimensional XLM-RoBERTa embeddings for every 512 token chunk of the tokenized text ### Data instance ```json { "id": "<urn:uuid:f26003c7-6084-4791-b3fe-240eedc37e76>", "text": "Plutonium ist einer der gefährlichsten Stoffe der Welt. Es entsteht als hochgiftiges und radioaktives Nebenprodukt der Energiegewinnung in Atomkraftwerken. Wer nur ein Millionstel Gramm – ein kaum staubkorngroßes Teilchen – der Substanz einatmet, kann daran sterben. In der Natur kommt der Stoff nur in geringsten Mengen vor, wird aber künstlich hergestellt, weil man damit Bomben bauen kann. Je nach Reinheitsgrad reichen für eine Atombombe bereits fünf Kilogramm. Bis zum Beginn der achtziger Jahre des letzten Jahrhunderts hatten die Reaktoren weltweit bereits rund 300.000 Kilogramm erbrütet. Jährlich kommen etwa 20.000 Kilo hinzu. Genau dieser Stoff wird zu Land und zu Wasser um den ganzen Erdball herum transportiert. Legendär sind die Castor-Transporte, bei denen unter strengsten Sicherheitsvorkehrungen und entsprechenden Kosten abgebrannte Brennelemente aus deutschen Kernkraftwerken zur Wiederaufbereitung nach La Hague (Frankreich) oder Sellafield (Großbritannien) gebracht werden. Erst vergangenen Mai hat ein Frachter die größte Menge wiederaufbereiteten Mülls aller Zeiten von Frankreich nach Japan gebracht. Nicht auszudenken, was ein Unfall auf See bedeuten würde.", "date": "2014-03-16T08:53:38Z", "dump": "CC-MAIN-2014-10", "embeddings": [[ ... ]], "file_path": "s3://commoncrawl/crawl-data/CC-MAIN-2014-10/segments/1394678702159/warc/CC-MAIN-20140313024502-00039-ip-10-183-142-35.ec2.internal.warc.gz", "language": "deu", "language_score": 0.9983288645744324, "language_script": "Latn", "minhash_cluster_size": 2, "top_langs": {"deu_Latn_score": 0.9983288645744324}, "url": "http://www.greenpeace.org/austria/de/themen/atom/probleme/atomtransporte/", } ``` ## Usage You can load the dataset in Python using `datasets`: ```python from datasets import load_dataset dataset = load_dataset("epfml/FineWeb2-embedded", "deu_Latn") ``` ## Licensing information Like FineWeb2, this dataset is released under [Open Data Commons Attribution License (ODC-By) v1.0](https://opendatacommons.org/licenses/by/1-0/) license and is subject to [CommonCrawl's Terms of Use](https://commoncrawl.org/terms-of-use). ## Dataset origin Being based on FineWeb2, this data covers websites over the 2013-2024 time period. FineWeb2 is sourced from the internet at large, it is very likely that some personable identifiable information (PII) will be present, even if the FineWeb2 processing has already anonymized email addresses and public IP addresses. If you find your own PII and would like it removed, please fill out the [FineWeb2 PII removal/opt out form](https://forms.gle/VyNT3ZAUPZjPuWp39). CommonCrawl respects robots.txt at crawl time, but if you are a webmaster and find your website in FineWeb2 and would like to have it removed, you may also use the [FineWeb2 PII removal/opt out form](https://forms.gle/VyNT3ZAUPZjPuWp39). ## Considerations for Using the Data For the aspects of social impact, discussion of biases, and known limitations, we also refer to the [FineWeb2 documentation](https://huggingface.co/datasets/HuggingFaceFW/fineweb-2). ## Citation information If you use this dataset in your research or applications, please use the following citation: ``` @article{messmer2025multilingdatacomp, title={Enhancing Multilingual LLM Pretraining with Model-Based Data Selection}, author={Bettina Messmer and Vinko Sabolčec and Martin Jaggi}, journal={arXiv}, year={2025}, url={https://arxiv.org/abs/2502.10361}, } ```

# FineWeb2-embedded 嵌入数据集 ## 数据集概述 FineWeb2-embedded 是 [**"FineWeb2"**](https://huggingface.co/datasets/HuggingFaceFW/fineweb-2) 数据集的扩展版本,其为20种语言标注了**文档级**的 [**XLM-RoBERTa**](https://huggingface.co/FacebookAI/xlm-roberta-base) **嵌入向量**,可广泛应用于文档聚类、过滤等多语言研究任务。 由于XLM-RoBERTa的序列长度限制为512个**Token**,每个文档的嵌入向量通过对XLM-RoBERTa输出的512 Token分块进行均值池化(mean-pooling)得到。因此,更长的文本可生成更多嵌入向量(每512个Token对应一个嵌入向量)。 该嵌入向量最初是作为 [**"FineWeb2-HQ"**](https://huggingface.co/datasets/epfml/FineWeb2-HQ) 数据集(FineWeb2的高质量子集)的一部分生成的,但我们认为其可广泛应用于其他多语言研究与实际应用场景。 如需了解更多细节,请参阅我们的论文《基于模型的数据选择优化多语言大语言模型(Large Language Model,LLM)预训练》(Enhancing Multilingual LLM Pretraining with Model-Based Data Selection),链接:https://arxiv.org/abs/2502.10361。 ## 语言与子集 |子集名称|语言名称|文档数量|磁盘占用| |----------|-----------------|------------:|----------:| | rus_Cyrl | 俄语(西里尔字母) | 605,468,615 | 5.3T | | cmn_Hani | 中文(汉字) | 578,332,129 | 4.4T | | deu_Latn | 德语(拉丁字母) | 427,700,394 | 2.5T | | spa_Latn | 西班牙语(拉丁字母) | 405,634,303 | 2.3T | | jpn_Jpan | 日语(日文汉字) | 376,134,745 | 2.4T | | fra_Latn | 法语(拉丁字母) | 332,646,715 | 2.0T | | ita_Latn | 意大利语(拉丁字母) | 219,117,921 | 1.3T | | por_Latn | 葡萄牙语(拉丁字母) | 189,851,449 | 1.1T | | pol_Latn | 波兰语(拉丁字母) | 138,337,436 | 794G | | nld_Latn | 荷兰语(拉丁字母) | 133,855,612 | 720G | | ind_Latn | 印度尼西亚语(拉丁字母) | 92,992,647 | 537G | | tur_Latn | 土耳其语(拉丁字母) | 88,769,907 | 487G | | ces_Latn | 捷克语(拉丁字母) | 62,703,458 | 390G | | arb_Arab | 阿拉伯语(阿拉伯字母) | 57,752,149 | 363G | | fas_Arab | 波斯语(阿拉伯字母) | 51,043,666 | 322G | | hun_Latn | 匈牙利语(拉丁字母) | 46,879,826 | 328G | | swe_Latn | 瑞典语(拉丁字母) | 45,329,979 | 261G | | ell_Grek | 希腊语(希腊字母) | 44,202,550 | 267G | | dan_Latn | 丹麦语(拉丁字母) | 42,975,661 | 262G | | vie_Latn | 越南语(拉丁字母) | 40,741,340 | 298G | 我们计划在后续版本中添加XLM-RoBERTa支持的其他语言子集。 ## 数据集结构 ### 数据字段 每条数据条目包含原始的 [FineWeb2 数据字段](https://huggingface.co/datasets/HuggingFaceFW/fineweb-2#data-fields),并新增了以下字段: - `embeddings`:浮点数组集合,对应分词后文本每512 Token分块的768维XLM-RoBERTa嵌入向量 ### 数据示例 json { "id": "<urn:uuid:f26003c7-6084-4791-b3fe-240eedc37e76>", "text": "Plutonium ist einer der gefährlichsten Stoffe der Welt. Es entsteht als hochgiftiges und radioaktives Nebenprodukt der Energiegewinnung in Atomkraftwerken. Wer nur ein Millionstel Gramm – ein kaum staubkorngroßes Teilchen – der Substanz einatmet, kann daran sterben. In der Natur kommt der Stoff nur in geringsten Mengen vor, wird aber künstlich hergestellt, weil man damit Bomben bauen kann. Je nach Reinheitsgrad reichen für eine Atombombe bereits fünf Kilogramm. Bis zum Beginn der achtziger Jahre des letzten Jahrhunderts hatten die Reaktoren weltweit bereits rund 300.000 Kilogramm erbrütet. Jährlich kommen etwa 20.000 Kilo hinzu. Genau dieser Stoff wird zu Land und zu Wasser um den ganzen Erdball herum transportiert. Legendär sind die Castor-Transporte, bei denen unter strengsten Sicherheitsvorkehrungen und entsprechenden Kosten abgebrannte Brennelemente aus deutschen Kernkraftwerken zur Wiederaufbereitung nach La Hague (Frankreich) oder Sellafield (Großbritannien) gebracht werden. Erst vergangenen Mai hat ein Frachter die größte Menge wiederaufbereiteten Mülls aller Zeiten von Frankreich nach Japan gebracht. Nicht auszudenken, was ein Unfall auf See bedeuten würde.", "date": "2014-03-16T08:53:38Z", "dump": "CC-MAIN-2014-10", "embeddings": [[ ... ]], "file_path": "s3://commoncrawl/crawl-data/CC-MAIN-2014-10/segments/1394678702159/warc/CC-MAIN-20140313024502-00039-ip-10-183-142-35.ec2.internal.warc.gz", "language": "deu", "language_score": 0.9983288645744324, "language_script": "Latn", "minhash_cluster_size": 2, "top_langs": {"deu_Latn_score": 0.9983288645744324}, "url": "http://www.greenpeace.org/austria/de/themen/atom/probleme/atomtransporte/", } ## 使用方法 你可以通过Python的`datasets`库加载该数据集: python from datasets import load_dataset dataset = load_dataset("epfml/FineWeb2-embedded", "deu_Latn") ## 授权信息 本数据集与FineWeb2一致,采用 [开放数据 Commons 署名许可协议(Open Data Commons Attribution License, ODC-By)v1.0](https://opendatacommons.org/licenses/by/1-0/) 进行发布,并受 [CommonCrawl 使用条款](https://commoncrawl.org/terms-of-use) 约束。 ## 数据集来源 本数据集基于FineWeb2构建,涵盖2013年至2024年期间的网页数据。 FineWeb2的数据源自公开互联网,尽管其已对电子邮件地址与公共IP地址进行了匿名化处理,但仍可能存在部分**可识别个人身份的信息(Personally Identifiable Information,PII)**。若你发现自身的PII信息并希望移除,请填写 [FineWeb2 PII移除/退出申请表](https://forms.gle/VyNT3ZAUPZjPuWp39)。 CommonCrawl在爬取过程中会遵守robots.txt协议,但如果你是网站管理员,发现你的网站出现在FineWeb2中并希望移除,也可以使用上述申请表提交申请。 ## 数据使用注意事项 关于社会影响、偏见讨论与已知限制等内容,请参阅 [FineWeb2 官方文档](https://huggingface.co/datasets/HuggingFaceFW/fineweb-2)。 ## 引用信息 若你在研究或应用中使用该数据集,请引用以下论文: @article{messmer2025multilingdatacomp, title={Enhancing Multilingual LLM Pretraining with Model-Based Data Selection}, author={Bettina Messmer and Vinko Sabolčec and Martin Jaggi}, journal={arXiv}, year={2025}, url={https://arxiv.org/abs/2502.10361}, }
提供机构:
maas
创建时间:
2025-09-22
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作