tner/ttc_dummy
收藏Hugging Face2022-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tner/ttc_dummy
下载链接
链接失效反馈官方服务:
资源简介:
Temporal Twitter Corpus (TTC) 是一个专为命名实体识别任务设计的数据集,主要来源于Twitter平台。数据集包含标注了地点、组织和人物三种实体类型的文本数据。目前,该数据集为私有,需通过作者授权方可访问。数据集结构完整,包括训练、验证和测试集,并提供了详细的标签ID映射。
Temporal Twitter Corpus (TTC) is a dataset specifically designed for named entity recognition (NER) tasks, primarily sourced from the Twitter platform. It contains text data annotated with three entity types: location, organization, and person. Currently, this dataset is private, and access requires authorization from the original authors. It has a complete dataset structure including training, validation, and test splits, and provides a detailed label ID mapping.
提供机构:
tner
原始信息汇总
数据集概述
基本信息
- 语言: 英语(en)
- 许可证: 其他(other)
- 多语言性: 单语(monolingual)
- 大小分类: 1k<10K
- 任务分类: 令牌分类(token-classification)
- 任务ID: 命名实体识别(named-entity-recognition)
- 美观名称: TTC
数据集描述
- 数据集: 时间性Twitter语料库(Temporal Twitter Corpus)
- 领域: Twitter
- 实体数量: 3
- 实体类型:
LOC,ORG,PER
数据集结构
- 数据实例: 包含
tokens和tags字段,用于标记文本中的实体。 - 标签ID: 提供标签到ID的映射,包括
B-LOC,B-ORG,B-PER,I-LOC,I-ORG,I-PER,O。 - 数据分割:
名称 训练 验证 测试 ttc 9995 500 1477
引用信息
@inproceedings{rijhwani-preotiuc-pietro-2020-temporally, title = "Temporally-Informed Analysis of Named Entity Recognition", author = "Rijhwani, Shruti and Preotiuc-Pietro, Daniel", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.acl-main.680", doi = "10.18653/v1/2020.acl-main.680", pages = "7605--7617", abstract = "..." }
搜集汇总
数据集介绍

构建方式
在社交媒体文本挖掘领域,Temporal Twitter Corpus(TTC)数据集的构建体现了对时间动态性的深度考量。该数据集源自Twitter平台,通过精心设计的标注流程,对推文中的命名实体进行识别与分类,涵盖了位置(LOC)、组织(ORG)和人名(PER)三类实体。构建过程中,研究者采用了时序感知的标注策略,确保数据能够反映语言使用随时间演变的特性,从而支持对命名实体识别任务中时间漂移现象的实证分析。数据集的标注基于标准的分词与实体边界标注框架,并整合了社交媒体特有的文本元素,如提及和保留标记,以增强模型的泛化能力。
特点
TTC数据集的核心特点在于其鲜明的时序属性与社交媒体文本的复杂性。数据集专注于Twitter领域,包含近万条训练样本及验证与测试集,实体类型限定于三类常见命名实体,结构简洁而目标明确。其标注体系采用BIO格式,区分实体边界与内部成分,并引入特殊标记处理推文中的用户提及和保留内容,以模拟真实社交语境。此外,数据集的非公开性质强调了学术伦理与数据授权的重要性,用户需通过正式渠道获取原始访问权限,这体现了对数据来源与版权的严格尊重。
使用方法
使用TTC数据集时,研究者需首先通过邮件联系作者获取访问权限,随后在HuggingFace平台提交请求以激活数据。数据集适用于命名实体识别任务,可直接加载至T-NER等框架进行模型训练与评估。在预处理阶段,用户应参考提供的标签映射字典,将数值标签转换为实体类别,并注意处理推文中的特殊标记以保持文本一致性。实验设计可结合时序分析方法,探索训练数据的时间分布对模型性能的影响,从而深化对语言演变与实体识别交互机制的理解。数据集附带的论文为方法论提供了理论支撑,建议用户在引用时遵循规范的学术格式。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别(NER)作为信息抽取的核心任务,旨在从非结构化文本中识别并分类实体,如人名、组织名和地名。随着社交媒体数据的爆炸式增长,Twitter等平台产生的文本具有动态演变特性,语言使用和实体信息随时间推移而显著变化,这为传统NER模型带来了新的挑战。为探究时间因素对NER性能的影响,卡内基梅隆大学的研究人员Shruti Rijhwani和Daniel Preotiuc-Pietro于2020年构建了Temporal Twitter Corpus(TTC)数据集。该数据集专注于英文推文,标注了LOC、ORG和PER三类实体,通过分析时间漂移现象,旨在提升模型在时序数据上的泛化能力,为时间感知的NER研究提供了重要基准,推动了计算语言学在动态文本环境下的进展。
当前挑战
TTC数据集致力于解决命名实体识别在时序文本中的挑战,特别是时间漂移问题,即语言模式和实体分布随时间变化导致模型性能下降。构建过程中,研究人员面临多重困难:Twitter数据的非正式语言特性,如缩写、表情符号和网络用语,增加了实体标注的复杂性;同时,数据的时间敏感性要求精确的时间戳管理,以确保训练和测试集能反映真实的时间演变。此外,数据隐私和版权限制使得数据集未公开释放,需通过作者授权访问,这在一定程度上影响了研究的可复现性和广泛使用。这些挑战凸显了在动态社交媒体环境中构建高质量、时间感知的NER数据集的艰巨性。
常用场景
经典使用场景
在社交媒体自然语言处理领域,TTC数据集作为时间感知的命名实体识别基准,其经典应用场景聚焦于分析推特文本中实体随时间演变的动态模式。该数据集通过标注地理位置、组织机构及人物姓名三类实体,为研究者提供了探索语言使用变迁与信息传播轨迹的实证基础,尤其适用于构建能够适应时间漂移的序列标注模型,以捕捉社交媒体语境下实体提及的时序特性。
实际应用
在实际应用层面,TTC数据集可服务于社交媒体监控、舆情分析及信息检索系统。例如,通过追踪特定实体在推特平台上的出现频率与上下文变化,能够辅助识别突发事件的传播路径或公众人物的影响力波动。这类时间敏感的实体分析工具,为新闻机构、政策研究及品牌管理提供了数据驱动的决策依据,增强了从海量非结构化文本中提取时序洞察的实践价值。
衍生相关工作
基于TTC数据集衍生的经典工作包括时间感知的神经网络架构设计与跨时段迁移学习策略。相关研究如《Temporally-Informed Analysis of Named Entity Recognition》提出了利用时间分层训练与动态加权采样方法,以优化模型对历史数据的利用效率。后续工作进一步探索了结合时间嵌入的Transformer变体,以及针对社交媒体时序噪声的对抗训练框架,持续推动了时间维度在信息抽取任务中的融合创新。
以上内容由遇见数据集搜集并总结生成



