xinzhang/wikipedia_summary

Name: xinzhang/wikipedia_summary
Creator: xinzhang
Published: 2023-12-28 01:57:54
License: 暂无描述

Hugging Face2023-12-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/xinzhang/wikipedia_summary

下载链接

链接失效反馈

官方服务：

资源简介：

wikiprompt数据集由北京航空航天大学的张新使用AI工具生成，旨在支持NLP研究，特别是语言处理领域。该数据集包含从中文维基百科文章中生成的摘要，以JSON文件格式存储，每个条目包含原始文本、截断文本和语义内容。数据集目前不公开，但可应学术或研究请求访问。

提供机构：

xinzhang

原始信息汇总

数据集描述

由谁策划： 张欣，来自北京航空航天大学（BUAA）。该数据集使用AI工具生成维基百科文章的摘要，旨在支持自然语言处理（NLP）研究和应用，特别是在语言处理方面。
资金支持： 该数据集的创建由北京航空航天大学内部支持，作为学术研究计划的一部分。
共享者： 张欣，来自北京航空航天大学计算机科学系。
语言（NLP）： 英语
许可证： 该数据集以CC0“无权利保留”许可证分发，鼓励学术和商业使用，同时承认维基百科内容的原始来源。

数据集来源

存储库： 该数据集目前不公开，但可以申请用于学术或研究目的。
论文： 数据集生成过程和初始基准的详细信息在论文《AI-Generated Summaries of Chinese Wikipedia Articles: A New Dataset for NLP Research》中描述，张欣等，北京航空航天大学。

用途

直接用途： 适用于训练和评估文本摘要、语言理解和其他需要源内容压缩表示的NLP任务。
超出范围的用途： 该数据集不适用于识别或生成个性化内容，因为它不包含用户特定信息或偏好。

数据集结构

数据集由JSON文件组成，每个条目具有以下格式：

json { original: string, truncated_text: string with 2000 length, semantic_content: string }

数据集创建

策划理由： 该数据集是为了填补NLP研究中摘要文本可用性的空白而策划的。通过利用AI工具生成摘要，我们旨在提供一个有助于改进摘要算法和理解压缩中文文本的资源。

源数据

数据收集和处理： 摘要使用专有的基于AI的摘要工具生成。输入数据来自涵盖各种主题和领域的中国维基百科文章。
注释： 由于数据集是通过自动化过程生成的，没有人工干预，因此没有提供手动注释。

个人和敏感信息

由于数据集是从公开可用的维基百科文章生成的，仅包含事实摘要，因此不包括任何个人或敏感信息。

偏见、风险和限制

由于数据集源自维基百科，可能继承了文章中的偏见，包括但不限于文化、主题和语言偏见。用户在使用此数据集时应谨慎，并在使用此数据集训练模型时进行额外的偏见分析。

引用

如果您在研究中使用此数据集，请引用以下论文：张欣等（年份）。《AI-Generated Summaries of Chinese Wikipedia Articles: A New Dataset for NLP Research》。北京航空航天大学。

数据集卡作者

数据集卡由张欣和北京航空航天大学AI研究小组编写。

数据集卡联系

如需进一步咨询或访问请求，请联系张欣，邮箱：zxin0423@gmail.com。

5,000+

优质数据集

54 个

任务类型

进入经典数据集