five

adasgaleus/word-importance

收藏
Hugging Face2024-04-28 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/adasgaleus/word-importance
下载链接
链接失效反馈
官方服务:
资源简介:
Word Importance数据集包含约50个单词长度的短文本上下文,以及这些上下文中单词重要性的标注。标注者被要求在每个上下文中排名前10%的重要单词。未排名的单词被赋予相同的最后排名。多个用户为每个上下文提供了排名,最终排名通过平均这些贡献计算得出。该数据集旨在促进单词重要性预测和标记分类任务的研究。所有文本均为英文,涵盖五个领域:新闻、文学、诗歌、笑话和转录的口语。

Word Importance数据集包含约50个单词长度的短文本上下文,以及这些上下文中单词重要性的标注。标注者被要求在每个上下文中排名前10%的重要单词。未排名的单词被赋予相同的最后排名。多个用户为每个上下文提供了排名,最终排名通过平均这些贡献计算得出。该数据集旨在促进单词重要性预测和标记分类任务的研究。所有文本均为英文,涵盖五个领域:新闻、文学、诗歌、笑话和转录的口语。
提供机构:
adasgaleus
原始信息汇总

数据集概述

数据集信息

  • 名称: Word Importance
  • 语言: 英语
  • 许可: CC BY 4.0
  • 任务类别:
    • 词元分类

数据集特征

  • context: 字符串序列
  • label: 浮点数序列
  • domain: 字符串类型

数据集分割

  • 测试集:
    • 示例数量: 50
    • 数据大小: 46345字节

数据集大小

  • 下载大小: 15462字节
  • 数据集总大小: 46345字节

配置信息

  • 默认配置:
    • 数据文件路径: data/test-*

数据集描述

  • 内容: 包含约50字长度的短文,以及标注的词重要性。标注者需对每个上下文中的前10%重要词进行排名。
  • 排名方法: 未被用户排名的词获得相同的最后排名。多用户贡献的排名通过平均计算得出最终排名。
  • 目的: 用于词重要性预测和词元分类任务的研究。

支持的任务

  • 主要用途: 评估预测词重要性分数的模型。

语言和领域

  • 语言: 英语
  • 领域: 新闻、文学、诗歌、笑话、转录口语

许可信息

  • 许可: CC BY 4.0

引用信息

@article{wordimp-osus, author = {Adam Osuský}, title = {Predicting Word Importance Using Pre-Trained Language Models}, school = {Charles University, Faculty of Mathematics and Physics}, year = {2024}, type = {Bachelors Thesis}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作