five

WikiText Long Term Dependency Language Modeling Dataset 长期依赖语言建模数据集

收藏
阿里云天池2026-06-09 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/88815
下载链接
链接失效反馈
官方服务:
资源简介:
WikiText 长期依赖语言建模数据集包含 1 亿个英文词汇,其来自于 Wikipedia 优质文章和标杆文章。

The WikiText long-range dependency language modeling dataset contains 100 million English tokens, sourced from high-quality and benchmark Wikipedia articles.
提供机构:
阿里云天池
创建时间:
2021-01-21
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WikiText长期依赖语言建模数据集包含1亿个英文词汇,源自Wikipedia优质和标杆文章。该数据集提供WikiText-2和WikiText-103两个版本,规模超越PTB词库,并保留词汇的原始文章信息,专为长时依赖自然语言建模任务设计。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务