socialmediaie/TweetNERD

Name: socialmediaie/TweetNERD
Creator: socialmediaie
Published: 2024-06-14 12:07:28
License: 暂无描述

Hugging Face2024-06-14 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/socialmediaie/TweetNERD

下载链接

链接失效反馈

官方服务：

资源简介：

TweetNERD数据集是一个用于推文实体链接（Entity Linking）的基准数据集，包含2010年至2021年间的340,000多条推文。该数据集是迄今为止最大且时间跨度最广的推文实体链接数据集，旨在为信息检索、问答系统、事件检测等自然语言处理（NLP）应用提供基准。数据集分为多个部分，包括训练集、验证集、测试集、学术集和OOD集。每个文件以制表符分隔，包含推文ID、实体短语、起始位置、结束位置、实体ID和评分等信息。数据集的使用需要访问Twitter API，并遵守Twitter的开发者条款。

提供机构：

socialmediaie

原始信息汇总

TweetNERD - End to End Entity Linking Benchmark for Tweets

数据集概述

名称: TweetNERD
描述: 一个用于推文实体链接基准测试的数据集，包含2010-2021年间的340K+条推文。
领域: 自然语言处理 (NLP)
任务: 命名实体识别与消歧 (NERD)

数据集配置

配置名称:
- default
- paper

`default` 配置

数据文件:
- train: train.public.merged.json
- validation: valid.public.merged.json
- test: test.public.merged.json
- academic: Academic.public.merged.json
- ood: OOD.public.merged.json

`paper` 配置

数据文件:
- parts: part_*.public.merged.json
- academic: Academic.public.merged.json
- ood: OOD.public.merged.json

数据格式

文件类型: 制表符分隔的文件 (TSV)
列信息:
- tweet_id: 推文ID (字符串)
- phrase: 实体短语 (字符串, 缺失值为 NO_PHRASE)
- start: 短语在文本中的起始偏移量 (整数, 缺失值为 -1)
- end: 短语在文本中的结束偏移量 (整数, 缺失值为 -1)
- entityId: 实体ID (字符串, 缺失值为 NO_ENTITY)
- score: 同意该短语、起始、结束、实体ID信息的标注者数量 (整数, 缺失值为 -1)

数据统计

分割:
- OOD: 34102行, 25000条唯一推文, 20937条已填充推文
- Academic: 51685行, 30119条唯一推文, 28694条已填充推文
- part_0 至 part_11: 11830至32033行, 10000至24972条唯一推文, 6633至20583条已填充推文
- train: 349252行, 255490条唯一推文, 207278条已填充推文
- valid: 6822行, 5000条唯一推文, 4128条已填充推文
- test: 34129行, 25000条唯一推文, 20274条已填充推文

数据使用政策

使用该数据集需要合法访问 Twitter API，并同意开发者条款、政策和协议。

引用

@inproceedings{TweetNERD, doi = {10.48550/ARXIV.2210.08129}, url = {https://arxiv.org/abs/2210.08129}, author = {Mishra, Shubhanshu and Saini, Aman and Makki, Raheleh and Mehta, Sneha and Haghighi, Aria and Mollahosseini, Ali}, keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), Information Retrieval (cs.IR), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences, I.2.7, 68T50, 68T07}, title = {{TweetNERD} -- {End to End Entity Linking Benchmark for Tweets}}, publisher = {arXiv}, year = {2022}, booktitle = "Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 2 (NeurIPS Datasets and Benchmarks 2022)", copyright = {Creative Commons Attribution 4.0 International} }

@dataset{mishra_shubhanshu_2022_6617192, author = {Mishra, Shubhanshu and Saini, Aman and Makki, Raheleh and Mehta, Sneha and Haghighi, Aria and Mollahosseini, Ali}, title = {{TweetNERD - End to End Entity Linking Benchmark for Tweets}}, month = jun, year = 2022, note = {{Data usage policy Use of this dataset is subject to you obtaining lawful access to the [Twitter API](https://developer.twitter.com/en/docs /twitter-api), which requires you to agree to the [Developer Terms Policies and Agreements](https://developer.twitter.com/en /developer-terms/).}}, publisher = {Zenodo}, version = {0.0.0}, doi = {10.5281/zenodo.6617192}, url = {https://doi.org/10.5281/zenodo.6617192} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集