EmergentMethods/AskNews-NER-v0
收藏Hugging Face2024-05-22 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/EmergentMethods/AskNews-NER-v0
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在通过提高实体提取器的泛化能力和准确性,特别是在最新新闻事件上,来改善对未被充分代表的主题和实体的表示。数据集包含新闻文章摘要,这些摘要通过Llama2翻译和总结,然后通过Llama3提取实体。数据集的结构包括训练、测试和验证三个部分,每个部分都是结构化的JSON格式。数据集的创建过程包括从多样化的国家和语言来源收集新闻文章,通过Llama2进行翻译和总结,然后通过Llama3提取实体。数据集的使用主要是为了微调实体提取器,以提高其在新闻文章上的性能。
该数据集旨在通过提高实体提取器的泛化能力和准确性,特别是在最新新闻事件上,来改善对未被充分代表的主题和实体的表示。数据集包含新闻文章摘要,这些摘要通过Llama2翻译和总结,然后通过Llama3提取实体。数据集的结构包括训练、测试和验证三个部分,每个部分都是结构化的JSON格式。数据集的创建过程包括从多样化的国家和语言来源收集新闻文章,通过Llama2进行翻译和总结,然后通过Llama3提取实体。数据集的使用主要是为了微调实体提取器,以提高其在新闻文章上的性能。
提供机构:
EmergentMethods
原始信息汇总
数据集概述
数据集名称: Dataset Name
目的: 该数据集旨在提升实体提取器中未充分代表的主题和实体的表示,从而提高实体提取的准确性和泛化能力,特别是在最新的新闻事件中。数据集涵盖了2024年2月20日至3月31日期间的广泛新闻报道。
内容: 数据集包含新闻文章摘要,这些摘要由Llama2翻译和总结,然后使用Llama3提取实体。
数据集详细信息
维护者: Emergent Methods
资金来源: Emergent Methods
分享者: Emergent Methods
语言: 英语(原文及翻译自西班牙语、葡萄牙语、德语、俄语、法语、阿拉伯语、意大利语、乌克兰语、挪威语、瑞典语、丹麦语)
许可: Apache 2.0
数据集结构
文件格式: JSON
数据分割: 训练集、测试集、验证集
样本结构: json { "metadata": {...}, "tokenized_text": [...], "ner": [...] }
数据集创建
数据来源: AskNews API
数据处理:
- 从多样化的国家/语言/来源收集新闻文章。
- 使用Llama2翻译和总结文章。
- 根据主题对嵌入进行聚类。
- 从聚类中均匀抽样,考虑国家来源。
- 使用Llama3从每个摘要中提取实体。
使用目的
应用: 用于微调实体提取器,以提高对最新新闻事件的泛化能力和准确性。
数据集限制
偏见与风险: 数据集仍偏向西方语言和国家,且可能继承Llama2和Llama3的训练数据中的偏见。
建议
使用注意事项: 在实施或训练时,应仔细考虑数据集的主题、国家和语言分布。



