Wayne Fung's blog


  • 首页

  • 分类

  • 标签

  • 归档

  • 关于

variants of BN

发表于 2020-06-22 | 分类于 paper-reading
| 字数统计: 4749 | 阅读时长约 15 mins

  BN作为神经网络的万金油,能够显著加速模型训练,并提升模型训练的稳定性和最终精度。它在一个batch的数据上做归一化,把数据重整化为零均值标准方差的分布。问题在于,如何取batch size的大小?batch size太大,做归一化绰绰有余,且训练时间能大幅缩短,但是GPU显存吃不消,只能在多卡上做数据并行训练,多卡数据间如何求BN也是个问题,同时由于一个epoch内steps少了,模型迭代次数不够,也会掉点;batch size太小,数据间方差波动太大,不具有统计性,此时做BN并不能对数据做有效归一化,也会影响最终精度。本文就这些问题做一些文献调研和记录,涉及Linear Scaling Rule、Gradual warmup、Cross-GPU BN、Cross-Iteration BN、Filter Response Normalization Layer等。

阅读全文 »

G/D/C-IoU loss

发表于 2020-06-20 | 分类于 paper-reading
| 字数统计: 1882 | 阅读时长约 6 mins

  在detection任务中,需要对候选框的坐标位置进行回归。常用的loss有L1、Smooth L1、L2,但它们的参数都是未归一化的,容易受框的尺寸影响,后来又有IoU这种归一化过的尺寸无关loss,但它也有优化缓慢、未重叠框无法优化等缺点,于是又有人在IoU的基础上进行各种改进,本文将会介绍这些改进版的IoU loss。

阅读全文 »

texture-shape cue conflict of CNN

发表于 2020-06-19 | 分类于 paper-reading
| 字数统计: 1733 | 阅读时长约 5 mins

  纹理(texture)和形状(shape)信息对CNN的认知影响哪个大?就人类而言,披着象皮的猫咪,人类依然能依靠形状轮廓辨识出这是猫。而对CNN而言,实验发现它对这种对抗样本的辨识能力很差,容易被错误的纹理信息所误导,而无法从正确的形状轮廓中提取信息,在需要依靠物体轮廓定位的detection和segmentation等任务上,这种缺点是会显著降低模型精度的。因此有必要引导CNN去学习正确的图像信息。

阅读全文 »

YOLO v1/v2/v3/v4

发表于 2020-06-17 | 分类于 paper-reading
| 字数统计: 6648 | 阅读时长约 22 mins

  YOLO v1-v3的作者,Joseph Redmon大神,因为考虑到自己的研究成果会被用于军事用途和个人隐私领域,因此在2020年2月宣布退出CV界,可谓是非常洒脱了。但YOLO系列并没有因此停止更新,在随后的4月,YOLO v4由他人接棒发表并得到了大神本人的认可。全文涉及到非常多的detection领域的历史研究成果,可谓是集大成者,一开始初看简直是眼花缭乱,也真心感叹现在水论文越来越不容易了。为了理解这篇paper也补看了很多相关的历史paper,中间又断断续续地受到疫情和毕业手续的影响,现在终于能静下心来好好地记录一下相关的知识。全文涵盖的知识点比较多且杂,但也是成体系的,久远的YOLO v1-v3会一带而过,重点放在v4上(李鬼版的v5请忽略)。

阅读全文 »

配置VS Code - 进阶

发表于 2020-05-26 | 分类于 computer-skills
| 字数统计: 1877 | 阅读时长约 6 mins

  前段时间服役了多年的macbook突然宕机了,发现是硬盘坏了,彻底坏了的那种,遂重新装机,重新配环境。在配环境的过程中发现很多低端重复性的操作简直是浪费时间,尤其是基于vscode这种高自由度IDE的环境配置,所以在此做一些记录,希望以后在迁徙生产力的时候能少费功夫。主要有vscode上C++、OpenCV、code runner、setting sync、右键从文件夹进入等配置。

阅读全文 »

intra-class / inter-class loss

发表于 2020-04-28 | 分类于 paper-reading
| 字数统计: 4104 | 阅读时长约 13 mins

  因为疫情的原因,在家滞留了大半年,期间在家用一个半月的时间写完了硕士毕业论文,现在算是慢慢闲下来了,终于可以随便看看paper写写博客了。找了一篇最近预发表的CNN综述(2020年4月),通篇读下来还是发现了一些基础知识上的盲区,比如分类问题上的loss除了有最常见的交叉熵,还有进一步考虑类内距离和类间距离的loss,主要用于人脸识别和ReID等领域。下面针对这方面的工作做一些归纳和记录。

阅读全文 »

2019年终总结

发表于 2020-01-01 | 分类于 life
| 字数统计: 6495 | 阅读时长约 21 mins

  2019年, 从研二下学期到研三上学期, 从实习到找工作到写论文投稿, 经历了很多事情. 虽然我不是一个怀旧的人, 但还是有必要在这里记录一下比较难忘的事, 作为经验, 引出接下来的2020年要做的事.
  回忆主要依据Github上的Contribution展开, 可以从下图看到, 主要有五个阶段: 一, 离校实习(2019.01.07-04.15), 这段时间主要是维护在GitLab上的公司repo, 所以Github上的Contribution是一段空白; 二, 返校做硕士课题(04.15-05.31), 做了一个用于多相流流场分割的模型, 这段主要是在维护数据和模型两个独立的repo; 三, 准备秋招(06.01-09.31), 这段时间主要在LeetCode上刷题, 零星的几个Contribution是在维护个人简历的repo; 四, 写文章(10.01-11.01), 这段时间主要在维护论文的LaTexrepo; 五, 投稿(11.01-12.26), 这段时间对硕士课题相关的课题repo有一些修补, 在等待小老板改文章的过程中浪费了很多时间.

阅读全文 »

Matplotlib -- SCI论文绘图配置

发表于 2019-12-18 | 分类于 computer-skills
| 字数统计: 1403 | 阅读时长约 4 mins

  前一阵子忙着修改论文, 最近完成了初稿, 为了后期能复现一些结果, 就把文献、代码、数据以及后处理等过程都做了存档. 其中, 所有的的示意图都是用PPT制作的, 所有的数据图都是用Matplotlib画的, 二者自由度都很高, 这也意味着有些地方需要人为精细地控制, 下面针对写Paper的大概流程配置和Matplotlib制作科研论文用图的设置做一些记录.

阅读全文 »

Image inpainting using CFD methods

发表于 2019-12-07 | 分类于 paper-reading
| 字数统计: 2616 | 阅读时长约 8 mins

  无意间翻阅了OpenCV计算摄影学篇章的教程, 主要有三部分: Image denoising, Image inpainting和HDR, 基本上对应着组里ISP方向现有的研究内容. 其中, 提到了一种使用计算流体动力学(Computational Fluid Dynamics/CFD)的方法来解决inpainting问题, 而CFD恰巧是我所熟悉的, 所以就找了对应的文献简单复现了一下, 下面做一些记录. 需要注意的是, 这里所涉及的都是传统算法, 与深度学习方法无关.

阅读全文 »

Effective receptive field

发表于 2019-12-02 | 分类于 paper-reading
| 字数统计: 2351 | 阅读时长约 7 mins

  针对mage classification, semantic segmentation等任务, 需要感受域越大越好, 这样在high-level的feature上看到的原始输入像素范围更大, 更有利于做出全局判断. 在detection等任务上, 为了检测到不同尺度大小的物体, 需要在不同感受域大小的feature上分别做检测. 但是, 感受域究竟需要大到多少? 真的是越大越有效吗? 针对这些问题调研了相关文献, 做了以下整理和记录.

阅读全文 »
1 2 3
Wayne Fung

Wayne Fung

Stay motivated & Be contented

22 日志
3 分类
17 标签
RSS
GitHub Zhihu
友情链接
  • Liam Huang
  • Yunfeng
© 2019 - 2020 Wayne Fung