five

Natural Stories Corpus

收藏
arXiv2017-08-19 更新2024-06-21 收录
下载链接:
http://github.com/languageMIT/naturalstories
下载链接
链接失效反馈
官方服务:
资源简介:
Natural Stories Corpus是由麻省理工学院语言学系创建的一个包含10,245个词汇和485个句子的英语文本数据集。该数据集通过编辑公开可用的文本,增加了许多低频和心理语言学上感兴趣的句法结构,同时保持了流畅性和连贯性。数据集包含手动校正的解析树和自我节奏阅读时间数据,旨在为心理语言学模型提供一个标准测试集,特别关注于罕见或难以处理的句法结构。

The Natural Stories Corpus is an English text dataset created by the Department of Linguistics at the Massachusetts Institute of Technology (MIT), containing 10,245 vocabulary items and 485 sentences. Developed by editing publicly available texts, the dataset incorporates a large number of low-frequency and psycholinguistically salient syntactic structures while maintaining fluency and coherence. It includes manually corrected parse trees and self-paced reading time data, and is specifically designed as a standard test benchmark for psycholinguistic models, with a particular focus on rare or difficult-to-process syntactic structures.
提供机构:
麻省理工学院语言学系
创建时间:
2017-08-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作