five

xinzhang/wikipedia_summary

收藏
Hugging Face2023-12-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xinzhang/wikipedia_summary
下载链接
链接失效反馈
官方服务:
资源简介:
wikiprompt数据集由北京航空航天大学的张新使用AI工具生成,旨在支持NLP研究,特别是语言处理领域。该数据集包含从中文维基百科文章中生成的摘要,以JSON文件格式存储,每个条目包含原始文本、截断文本和语义内容。数据集目前不公开,但可应学术或研究请求访问。

wikiprompt数据集由北京航空航天大学的张新使用AI工具生成,旨在支持NLP研究,特别是语言处理领域。该数据集包含从中文维基百科文章中生成的摘要,以JSON文件格式存储,每个条目包含原始文本、截断文本和语义内容。数据集目前不公开,但可应学术或研究请求访问。
提供机构:
xinzhang
原始信息汇总

数据集描述

  • 由谁策划: 张欣,来自北京航空航天大学(BUAA)。该数据集使用AI工具生成维基百科文章的摘要,旨在支持自然语言处理(NLP)研究和应用,特别是在语言处理方面。

  • 资金支持: 该数据集的创建由北京航空航天大学内部支持,作为学术研究计划的一部分。

  • 共享者: 张欣,来自北京航空航天大学计算机科学系。

  • 语言(NLP): 英语

  • 许可证: 该数据集以CC0“无权利保留”许可证分发,鼓励学术和商业使用,同时承认维基百科内容的原始来源。

数据集来源

  • 存储库: 该数据集目前不公开,但可以申请用于学术或研究目的。

  • 论文: 数据集生成过程和初始基准的详细信息在论文《AI-Generated Summaries of Chinese Wikipedia Articles: A New Dataset for NLP Research》中描述,张欣等,北京航空航天大学。

用途

  • 直接用途: 适用于训练和评估文本摘要、语言理解和其他需要源内容压缩表示的NLP任务。

  • 超出范围的用途: 该数据集不适用于识别或生成个性化内容,因为它不包含用户特定信息或偏好。

数据集结构

数据集由JSON文件组成,每个条目具有以下格式:

json { original: string, truncated_text: string with 2000 length, semantic_content: string }

数据集创建

  • 策划理由: 该数据集是为了填补NLP研究中摘要文本可用性的空白而策划的。通过利用AI工具生成摘要,我们旨在提供一个有助于改进摘要算法和理解压缩中文文本的资源。

源数据

  • 数据收集和处理: 摘要使用专有的基于AI的摘要工具生成。输入数据来自涵盖各种主题和领域的中国维基百科文章。

  • 注释: 由于数据集是通过自动化过程生成的,没有人工干预,因此没有提供手动注释。

个人和敏感信息

由于数据集是从公开可用的维基百科文章生成的,仅包含事实摘要,因此不包括任何个人或敏感信息。

偏见、风险和限制

由于数据集源自维基百科,可能继承了文章中的偏见,包括但不限于文化、主题和语言偏见。用户在使用此数据集时应谨慎,并在使用此数据集训练模型时进行额外的偏见分析。

推荐

我们建议数据集的用户承认潜在的偏见,并评估使用此数据集训练的模型在各种指标上的表现,以确保公平性和鲁棒性。

引用

如果您在研究中使用此数据集,请引用以下论文: 张欣等(年份)。《AI-Generated Summaries of Chinese Wikipedia Articles: A New Dataset for NLP Research》。北京航空航天大学。

数据集卡作者

数据集卡由张欣和北京航空航天大学AI研究小组编写。

数据集卡联系

如需进一步咨询或访问请求,请联系张欣,邮箱:zxin0423@gmail.com。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作