imvladikon/leipzig_corpora_collection
收藏Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/imvladikon/leipzig_corpora_collection
下载链接
链接失效反馈官方服务:
资源简介:
Leipzig Corpora Collection数据集提供了多种语言的语料库,这些语料库使用相同的格式和可比较的来源。所有数据都以纯文本文件的形式提供,并且可以通过提供的导入脚本导入到MySQL数据库中。这些语料库的格式相同,大小和内容相似,包含随机选择的句子,句子数量从10,000到1百万不等。数据来源主要是报纸或网络文本,文本被分割成句子,非句子和外语材料已被移除。此外,数据还包含了单词共现信息,这些信息对许多应用非常有用。
The Leipzig Corpora Collection dataset offers corpora for multiple languages, featuring uniform formatting and comparable source backgrounds. All data is distributed as plain text files, and can be imported into MySQL databases using the provided import scripts. Each corpus shares the same format, with similar scale and content, comprising randomly selected sentences with counts ranging from 10,000 to 1,000,000. The data primarily originates from newspapers or web texts; the original texts have been segmented into sentences, and non-sentential segments as well as foreign-language materials have been removed. Furthermore, the dataset contains word co-occurrence information, which is valuable for a broad spectrum of applications.
提供机构:
imvladikon
原始信息汇总
数据集概述
- 名称: Leipzig Corpora Collection
- 语言: 支持多种语言,包括阿拉伯语(ar)、英语(en)、希伯来语(he)、德语(de)、意大利语(it)、法语(fr)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、乌克兰语(uk)等。
- 任务类别: 主要用于文本生成和填充掩码任务。
- 数据来源: 原始数据集。
- 多语言性: 支持多语言。
- 大小分类: 数据集大小从少于1千到多于1千万不等,具体分为:
- 少于1千
- 1千到1万
- 1万到10万
- 10万到100万
- 100万到1千万
数据集内容
- 格式与来源: 数据集提供纯文本文件,可通过提供的导入脚本导入MySQL数据库。数据来源于报纸文本或网络随机收集的文本。
- 处理: 文本被分割成句子,非句子和外语材料已被移除。每个单词的显著左右邻居及同句内出现的单词信息已预计算并包含在内。
- 用途: 适用于科学研究和知识提取程序等应用。
数据集使用
- 加载方式: 使用
load_dataset函数加载数据集,可通过data_id选择特定子集。 - 筛选功能: 支持根据语言和年份等元数据属性筛选数据集。
引用信息
-
引用文献: 若使用此数据集,请引用相关工作,具体参考文献可查阅此链接。
-
引用格式:
@inproceedings{goldhahn-etal-2012-building, title = "Building Large Monolingual Dictionaries at the {L}eipzig Corpora Collection: From 100 to 200 Languages", author = "Goldhahn, Dirk and Eckart, Thomas and Quasthoff, Uwe", booktitle = "Proceedings of the Eighth International Conference on Language Resources and Evaluation ({LREC}12)", year = "2012", address = "Istanbul, Turkey", publisher = "European Language Resources Association (ELRA)", url = "http://www.lrec-conf.org/proceedings/lrec2012/pdf/327_Paper.pdf", pages = "759--765" }
搜集汇总
数据集介绍

背景与挑战
背景概述
Leipzig Corpora Collection是一个多语言语料库数据集,提供统一格式的文本数据,适用于语言研究和知识提取。数据集包含从报纸和网络收集的句子,大小从10,000到1百万句不等,并预计算了单词共现信息。
以上内容由遇见数据集搜集并总结生成



