• Jump to Content
北京大学计算机研究所多媒体信息处理研究室
[中文版] [English Version]
Document Title
主页
新闻
成员
招生方向
研究方向 招生要求 毕业生简介
科研项目
主要论文
开设课程
国际评测
发明专利
学生荣誉
活动休闲
数据集

一、PKU XMedia & PKU XMediaNet [HomePage]


  • PKU XMedia由 5 种模态类型(文本、图像、视频、音频和3D模态)组成,其中有 5000 个文本实例,5000 个图像实例,500 个视频实例,1000 个音频实例,500 个3D实例。平均分为 20 种类别,有昆虫、鸟类、风、狗、老虎、爆炸、大象、长笛、飞机、鼓、火车、笑声、狼、雷、马、摩托车、枪、溪流、钢琴和小提琴,每种类别600个媒体实例
  • PKU XMediaNet由 5 种模态类型(文本、图像、视频、音频和3D模态)组成,由WordNet中选择的 200 个类别节点构建以保证语义层次结构,其中有大象、猫头鹰、蜜蜂、青蛙等 48 种动物和小提琴、飞机、猎枪、照相机等 152 种工艺品,各种模态实例的总数超过 100,000。 以下是这个新数据集中媒体实例的一些信息:
    • 文本:从几个维基百科条目中提取的文本段落,其主题属于该类别
    • 图片:图片包括来自Flickr的类别对象
    • 视频:来自YouTube的视频片段,包括分类对象,平均时长约为 100 秒
    • 音频:包含Findsounds和Freesound中类别对象发出的声音的音频片段,如狗叫、闹钟、键盘输入等
    • 3D模型:表示Yobi3D中属于类别的对象的3D模型
  • 已被卡内基梅隆大学、康奈尔大学、微软等100多个机构使用,并发表TPAMI、TIP、CVPR、ICML等Trans.和CCF A类论文180多篇
  • PKU XMedia数据集示意图

    PKU XMediaNet数据集示意图

  • 论文引用:
  • @inproceedings{he2019fine,
        Author = {Xiangteng He, Yuxin Peng, Liu Xie},
        Title = {A New Benchmark and Approach for Fine-grained Cross-media Retrieval},
        Booktitle = {Proc. of ACM International Conference on Multimedia (ACM MM)},
        Year = {2019}
    }
    

二、PKU FG-XMedia [HomePage]


  • PKU FG-XMedia 是国际首个细粒度跨媒体检索数据集和评测基准,已被康奈尔大学、普渡大学、悉尼大学、中国科学院、阿里、百度等70多个机构使用
  • PKU FG-XMedia 包含 200 种鸟类的细粒度类别,覆盖文本、音频、图像和视频四种媒体类型,包含超过 50,000 个实例,具体信息如下:
    • -文本(Text):文本数据采集自维基百科等多个百科全书网站
    • -音频(Audio):鸟类的音频数据采集自多个专业音频网站,如 xeno-canto 和 Bird-sounds
    • -图像(Image):图像数据来自 CUB-200-2011 数据集
    • -视频(Video):视频数据来自YouTube Birds dataset
  • PKU FG-XMedia 包含 8000 个文本、12,000 条音频、11,788 张图像以及 78,350 条视频
  • PKU FG-XMedia数据集示意图

  • 论文引用:
  •     @inproceedings{he2019new,
            title={A new benchmark and approach for fine-grained cross-media retrieval},
            author={He, Xiangteng and Peng, Yuxin and Xie, Liu},
            booktitle={Proceedings of the 27th ACM international conference on multimedia},
            pages={1740--1748},
            year={2019}
        }
    

三、PKU PosterLayout [HomePage]


  • PKU PosterLayout是内容感知布局生成的数据集和基准,包含约1万对海报-布局标注数据以及1千个测试样本,具备源域广泛、内容主题多样、布局复杂度高的优势,并首次覆盖了全电商商品图像,已被耶鲁大学、加州理工、Adobe Research、微软等60多个机构使用
  • PKU PosterLayout数据集示意图

  • 论文引用:
  •     @inproceedings{hsu2023posterlayout,
            title={Posterlayout: A new benchmark and approach for content-aware visual-textual presentation layout},
            author={Hsu, Hsiao Yuan and He, Xiangteng and Peng, Yuxin and Kong, Hao and Zhang, Qing},
            booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
            year={2023},
            pages={6018--6026}
        }
    

四、FineDiving-HM [HomePage]


  • FineDiving-HM是首个细粒度人体动作质量评价数据集,已被斯坦福大学、南洋理工大学等著名研究机构使用
  • FineDiving-HM涵盖52种动作类别和29种细粒度子动作类别,包括3000个视频样本和312,256个视频帧掩码。此外,FineDiving-HM还提供了细粒度子动作时间标注和人体区域空间标注
  • FineDiving-HM数据集示意图

  • 论文引用:
  •     @inproceedings{Xu_2024_CVPR_fineparser,
            title={FineParser: A Fine-grained Spatio-temporal Action Parser for Human-centric Action Quality Assessment},
            author={Xu, Jinglin and Yin, Sibo and Zhao, Guohao and Wang, Zishuo and Peng, Yuxin},
            booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
            year={2024},
            pages={14628--14637},
        }
    

五、FineSports [HomePage]


  • FineSports是一个大规模多人场景的体育运动视频数据集,包含10,000个NBA比赛视频,涵盖52个细粒度动作类型、16k个动作实例
  • FineSports提供了每一帧的时空边界框标注,共计123k个目标动作的时空边界框,以及每个目标动作的文本描述
  • FineSports数据集示意图

  • 数据集各个动作类别:
  • FineSports数据类别示意图

  • 论文引用:
  •     @inproceedings{xu2024finesports,
            title={FineSports: A Multi-person Hierarchical Sports Video Dataset for Fine-grained Action Understanding},
            author={Xu, Jinglin and Zhao, Guohao and Yin, Sibo and Zhou, Wenhao and Peng, Yuxin},
            booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
            year={2024},
            pages={21773--21782},
        }
    
北京大学王选计算机研究所多媒体信息处理研究室