3 Million German Sentences 300万个德语句子
收藏阿里云天池2026-06-02 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/90035
下载链接
链接失效反馈官方服务:
资源简介:
莱比锡语料库集合使用相同的格式和可比的资源以不同的语言展示语料库。所有数据均以纯文本文件形式提供,并且可以使用提供的导入脚本导入到MySQL数据库中。它们既可用于语料库语言学家的科学用途,也可用于诸如知识提取程序之类的应用程序。该数据集包含2015年从报纸文本中提取的300万个句子。
The Leipzig Corpus Collection displays corpora in various languages with a uniform format and comparable resources. All data is provided in the form of plain text files and can be imported into MySQL databases using the provided import scripts. These corpora can be used for scientific research by corpus linguists, as well as applications such as knowledge extraction programs. This dataset contains 3 million sentences extracted from newspaper texts in 2015.
提供机构:
阿里云天池
创建时间:
2021-02-02
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集来自莱比锡语料库集合,包含2015年从报纸文本中提取的300万个德语句子,以纯文本文件形式提供。它适用于语料库语言学等科学用途或知识提取等应用,并已移除非句子和外语材料,同时包含单词频率信息。
以上内容由遇见数据集搜集并总结生成



