Taiga Corpus (An open-source corpus for machine learning.)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Taiga_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
Taiga 是一个语料库,其中根据流行的 ML 任务收集文本源及其元信息。语料库中的每个文本都以纯文本表示,并带有形态和句法注释(UDPipe,同音异义自动解析)+具有元信息 - 日期、主题、作者身份、文本难度……等(取决于来源)到目前为止,大约有 50 亿个单词77% 的文学文本(33 种文学杂志)、19% 的幼稚诗歌、2% 的新闻(4 个热门网站)和 2% 的其他(科普、文化杂志、社交网络、业余诗歌和散文),并提供文档。细分信息
提供机构:
OpenDataLab
创建时间:
2022-05-24



