「4月13日」十篇(将)开源论文代码分享

整理:CV君

包含GAN、视频实例分割、风格迁移、实例分割、HOI检测、机器人手抓取、NAS、transformer应用等领域。


CVPR2021部分:

#GAN#

1、Where and What? Examining Interpretable Disentangled Representations

悉尼大学

已开源:https://github.com/zhuxinqimac/PS-SC

论文:https://arxiv.org/abs/2104.05622



2、Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation

香港理工大学&阿里达摩院

已开源:https://github.com/MinghanLi/STMask

论文:https://arxiv.org/abs/2104.05606



3、Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer

百度&西安电子科技大学&重庆邮电大学

已开源:https://github.com/PaddlePaddle/PaddleGAN/

论文:https://arxiv.org/abs/2104.05376



4、Glance and Gaze: Inferring Action-aware Points for One-Stage Human-Object Interaction Detection

华南理工大学&Pazhou Lab&悉尼大学

将开源:https://github.com/SherlockHolmes221/GGNet

论文:https://arxiv.org/abs/2104.05269



5、All Labels Are Not Created Equal: Enhancing Semi-supervision via Label Grouping and Co-training

蒙纳士大学&阿德莱德大学

已开源:https://github.com/islam-nassar/semco

论文:https://arxiv.org/abs/2104.05248



6、Look Closer to Segment Better: Boundary Patch Refinement for Instance Segmentation

清华等

将开源:https://github.com/tinyalpha/BPR

论文:https://arxiv.org/abs/2104.05239



7、DexYCB: A Benchmark for Capturing Hand Grasping of Objects

英伟达&华盛顿大学

已开源:https://github.com/NVlabs/dex-ycb-toolkit

论文:https://arxiv.org/abs/2104.04631

视频:https://youtu.be/Q4wyBaZeBw0



8、Landmark Regularization: Ranking Guided Super-Net Training in Neural Architecture Search

洛桑联邦理工学院&英特尔

将开源:https://github.com/kcyu2014/nas-landmarkreg

论文:https://arxiv.org/abs/2104.05309



非CVPR2021部分


9、LocalViT: Bringing Locality to Vision Transformers

苏黎世联邦理工学院&鲁汶大学


通过引入 depth-wise 卷积,为 vision transformers 带来 locality 机制。这个全新的 transformer 架构将全局关系建模的自注意机制和局部信息聚合的局部性机制相结合。并对所引入的 locality 机制的基本特性进行分析,在此基础上,又对各部分(depth-wise convolution, non-linear activation function-非线性激活函数, layer placement, 和 hidden dimension expansion ratio)的影响进行了分析。作者将这些 ideas 应用于 vision transformers,包括 DeiT、T2T-ViT、PVT 和 TNT。并通过实验验证得出所提出的简单技术可以很好地推广到各种transformer 架构中。

将开源:https://github.com/ofsoundof/LocalViT

论文:https://arxiv.org/abs/2104.05707



10、Escaping the Big Data Paradigm with Compact Transformers

俄勒冈大学&伊利诺伊大学厄巴纳-香槟分校&PAIR

本次研究打破了 transformer 因为只能应用于大型数据集,是 "data hungry"的神话。并首次表明,只要有合适的size 和 tokenization,transformer 可以在小数据集上与最先进的CNNs一较高下。所设计模型通过一种新的序列池策略和卷积的使用,消除了对 class token 和 positional embeddings 的要求。与 CNNs 相比,该紧凑型transformer 具有更少的参数和 MAC,同时获得相似的精度。在模型大小方面是灵活的,可以只有 0.28M 的参数,并取得合理的结果。当在 CIFAR-10 上从头开始训练时,它的准确率可以达到 94.72%,与现代基于 CNN 的方法相当,比之前基于 Transformer 的模型有很大的改进。

所提出的简单而紧凑的设计使 Transformer 更大众化,使那些配备基本计算资源和/或处理重要的小型数据集的设备也能使用。

已开源:https://github.com/SHI-Labs/Compact-Transformers

论文:https://arxiv.org/abs/2104.05704


版权声明:

作者: freeclashnode

链接: https://www.freeclashnode.com/news/article-686.htm

来源: FreeClashNode

文章版权归作者所有,未经允许请勿转载。

免费节点实时更新

热门文章

最新文章

归档