adasgaleus/word-importance
收藏Hugging Face2024-04-28 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/adasgaleus/word-importance
下载链接
链接失效反馈官方服务:
资源简介:
Word Importance数据集包含约50个单词长度的短文本上下文,以及这些上下文中单词重要性的标注。标注者被要求在每个上下文中排名前10%的重要单词。未排名的单词被赋予相同的最后排名。多个用户为每个上下文提供了排名,最终排名通过平均这些贡献计算得出。该数据集旨在促进单词重要性预测和标记分类任务的研究。所有文本均为英文,涵盖五个领域:新闻、文学、诗歌、笑话和转录的口语。
Word Importance数据集包含约50个单词长度的短文本上下文,以及这些上下文中单词重要性的标注。标注者被要求在每个上下文中排名前10%的重要单词。未排名的单词被赋予相同的最后排名。多个用户为每个上下文提供了排名,最终排名通过平均这些贡献计算得出。该数据集旨在促进单词重要性预测和标记分类任务的研究。所有文本均为英文,涵盖五个领域:新闻、文学、诗歌、笑话和转录的口语。
提供机构:
adasgaleus
原始信息汇总
数据集概述
数据集信息
- 名称: Word Importance
- 语言: 英语
- 许可: CC BY 4.0
- 任务类别:
- 词元分类
数据集特征
- context: 字符串序列
- label: 浮点数序列
- domain: 字符串类型
数据集分割
- 测试集:
- 示例数量: 50
- 数据大小: 46345字节
数据集大小
- 下载大小: 15462字节
- 数据集总大小: 46345字节
配置信息
- 默认配置:
- 数据文件路径: data/test-*
数据集描述
- 内容: 包含约50字长度的短文,以及标注的词重要性。标注者需对每个上下文中的前10%重要词进行排名。
- 排名方法: 未被用户排名的词获得相同的最后排名。多用户贡献的排名通过平均计算得出最终排名。
- 目的: 用于词重要性预测和词元分类任务的研究。
支持的任务
- 主要用途: 评估预测词重要性分数的模型。
语言和领域
- 语言: 英语
- 领域: 新闻、文学、诗歌、笑话、转录口语
许可信息
- 许可: CC BY 4.0
引用信息
@article{wordimp-osus, author = {Adam Osuský}, title = {Predicting Word Importance Using Pre-Trained Language Models}, school = {Charles University, Faculty of Mathematics and Physics}, year = {2024}, type = {Bachelors Thesis}, }



