five

socialmediaie/TweetNERD

收藏
Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/socialmediaie/TweetNERD
下载链接
链接失效反馈
官方服务:
资源简介:
TweetNERD数据集是一个用于推文实体链接(Entity Linking)的基准数据集,包含2010年至2021年间的340,000多条推文。该数据集是迄今为止最大且时间跨度最广的推文实体链接数据集,旨在为信息检索、问答系统、事件检测等自然语言处理(NLP)应用提供基准。数据集分为多个部分,包括训练集、验证集、测试集、学术集和OOD集。每个文件以制表符分隔,包含推文ID、实体短语、起始位置、结束位置、实体ID和评分等信息。数据集的使用需要访问Twitter API,并遵守Twitter的开发者条款。

TweetNERD数据集是一个用于推文实体链接(Entity Linking)的基准数据集,包含2010年至2021年间的340,000多条推文。该数据集是迄今为止最大且时间跨度最广的推文实体链接数据集,旨在为信息检索、问答系统、事件检测等自然语言处理(NLP)应用提供基准。数据集分为多个部分,包括训练集、验证集、测试集、学术集和OOD集。每个文件以制表符分隔,包含推文ID、实体短语、起始位置、结束位置、实体ID和评分等信息。数据集的使用需要访问Twitter API,并遵守Twitter的开发者条款。
提供机构:
socialmediaie
原始信息汇总

TweetNERD - End to End Entity Linking Benchmark for Tweets

数据集概述

  • 名称: TweetNERD
  • 描述: 一个用于推文实体链接基准测试的数据集,包含2010-2021年间的340K+条推文。
  • 领域: 自然语言处理 (NLP)
  • 任务: 命名实体识别与消歧 (NERD)

数据集配置

  • 配置名称:
    • default
    • paper

default 配置

  • 数据文件:
    • train: train.public.merged.json
    • validation: valid.public.merged.json
    • test: test.public.merged.json
    • academic: Academic.public.merged.json
    • ood: OOD.public.merged.json

paper 配置

  • 数据文件:
    • parts: part_*.public.merged.json
    • academic: Academic.public.merged.json
    • ood: OOD.public.merged.json

数据格式

  • 文件类型: 制表符分隔的文件 (TSV)
  • 列信息:
    • tweet_id: 推文ID (字符串)
    • phrase: 实体短语 (字符串, 缺失值为 NO_PHRASE)
    • start: 短语在文本中的起始偏移量 (整数, 缺失值为 -1)
    • end: 短语在文本中的结束偏移量 (整数, 缺失值为 -1)
    • entityId: 实体ID (字符串, 缺失值为 NO_ENTITY)
    • score: 同意该短语、起始、结束、实体ID信息的标注者数量 (整数, 缺失值为 -1)

数据统计

  • 分割:
    • OOD: 34102行, 25000条唯一推文, 20937条已填充推文
    • Academic: 51685行, 30119条唯一推文, 28694条已填充推文
    • part_0part_11: 11830至32033行, 10000至24972条唯一推文, 6633至20583条已填充推文
    • train: 349252行, 255490条唯一推文, 207278条已填充推文
    • valid: 6822行, 5000条唯一推文, 4128条已填充推文
    • test: 34129行, 25000条唯一推文, 20274条已填充推文

数据使用政策

引用

@inproceedings{TweetNERD, doi = {10.48550/ARXIV.2210.08129}, url = {https://arxiv.org/abs/2210.08129}, author = {Mishra, Shubhanshu and Saini, Aman and Makki, Raheleh and Mehta, Sneha and Haghighi, Aria and Mollahosseini, Ali}, keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), Information Retrieval (cs.IR), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences, I.2.7, 68T50, 68T07}, title = {{TweetNERD} -- {End to End Entity Linking Benchmark for Tweets}}, publisher = {arXiv}, year = {2022}, booktitle = "Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 2 (NeurIPS Datasets and Benchmarks 2022)", copyright = {Creative Commons Attribution 4.0 International} }

@dataset{mishra_shubhanshu_2022_6617192, author = {Mishra, Shubhanshu and Saini, Aman and Makki, Raheleh and Mehta, Sneha and Haghighi, Aria and Mollahosseini, Ali}, title = {{TweetNERD - End to End Entity Linking Benchmark for Tweets}}, month = jun, year = 2022, note = {{Data usage policy Use of this dataset is subject to you obtaining lawful access to the [Twitter API](https://developer.twitter.com/en/docs /twitter-api), which requires you to agree to the [Developer Terms Policies and Agreements](https://developer.twitter.com/en /developer-terms/).}}, publisher = {Zenodo}, version = {0.0.0}, doi = {10.5281/zenodo.6617192}, url = {https://doi.org/10.5281/zenodo.6617192} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作