five

Taiga Corpus (An open-source corpus for machine learning.)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Taiga_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Taiga 是一个语料库,其中根据流行的 ML 任务收集文本源及其元信息。语料库中的每个文本都以纯文本表示,并带有形态和句法注释(UDPipe,同音异义自动解析)+具有元信息 - 日期、主题、作者身份、文本难度……等(取决于来源)到目前为止,大约有 50 亿个单词77% 的文学文本(33 种文学杂志)、19% 的幼稚诗歌、2% 的新闻(4 个热门网站)和 2% 的其他(科普、文化杂志、社交网络、业余诗歌和散文),并提供文档。细分信息
提供机构:
OpenDataLab
创建时间:
2022-05-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作