什么是光流? 字面上的意思就是光的流动. 通过追踪视频前后帧对应像素点之间的位移, 可用于视频防抖, 视频压缩等领域. 曾经见过同事用光流法做视频的多帧对齐融合降噪, 五颜六色的光流图看起来很酷炫. 所以出于好奇, 看了一些关于光流的基本知识和经典文章, 下面做一些记录.
Visual Attention
因为在做硕士课题的过程中碰到了一些时序上的多帧处理, 就采用了Encoder-Decoder + ConvLSTM cell来做时序上的演化. 调研了一些文献, 发现相关的工作确实比较少, 大多集中在Image to caption, video object segmentation, semantic instance segmentation方面, 且大部分发表在早期的2015-2016年间, 随后都转向attention的研究工作了. RNN存在占用显存大、超长时记忆缺陷的问题, 做NLP的早已全面抛弃RNN转向attention的怀抱, 这些年CV方面也慢慢地向attention靠拢, 以后是个趋势, 所以学习了一下attention到底是个什么东西, 下面做一些记录.
配置VS Code
VS Code是世界上最好的IDE! Visual Studio、Pycharm加载太慢, Vim键盘操作对菜鸟不友好, Jupyter Notebook版本管理混乱, Spyder太鸡肋. 在这几个IDE之间游走了很久, 最后下定决心, 把所有的生产工作全部集中到VS Code上. 优点是轻量化, 跨平台通用, 支持丰富的插件. 下面记录一下当前采用的VS Code配置, 以便以后在新的平台上部署生产力.
Paper review - Faster RCNN/YOLO/SSD & Paper Reading - ICCV 2019 "ThunderNet - Towards Real-time Generic Object Detection"
旷视detection组的一篇轻量级two-stage目标检测论文, 起的名字很好听, ThunderNet, 所以就特意找出来看一看. 以前接触detection比较少, 就趁这个机会把一些经典的object detection论文找出来读一读, 主要有two-stage的Faster-RCNN和ont-stage的YOLO、SDD, 它们奠定了一些基本的思路和框架, 新发表的论文基本是在此基础上做延伸, 有需要的时候再细看, 下面是一些总结. (全文4000多字, 涉及4篇paper, 27张图, 加载起来可能比较慢.)
Paper Reading - ECCV 2016 "Perceptual Losses for Real-Time Style Transfer and Super-Resolution"
这是李飞飞课题组的一篇文章, 与传统的pixel-wise loss不同, 用feature loss来衡量距离, 在迁移学习和超分辨率有一些用途. 突然回想起来以前同事在单帧超画质的模型中用到过, 当时还不知道是什么东西, 现在对文章内容做一些介绍.
Paper Reading - ICCV 2019 oral "Toward Real-World Single Image Super-Resolution - A New Benchmark and A New Model"
有什么样的数据, 就能训出什么样的丹, 这是我在实习的时候mentor所传授的经验. 经常客户爸爸反馈模型在某些场景下不work了, 我们就需要在训练集中加入bad case下的数据, 或者augmentation做得狠一点, 新一版的模型就能work了. ICCV的这篇oral思路也是一样, 获取真实场景下的数据去训练模型, 接下来做一下记录.
GAN Loss
看完了sinGAN的源码之后, 针对其GAN loss的形式有些不解, 所以找了一些关于GAN loss的文献资料, 在此做一些记录.
Paper Reading - ICCV 2019 best paper "SinGAN - Learning a Generative Model from a Single Natural Image"
一直觉得GAN是很神奇的东西, 就在ICCV会议召开的那几天, CVCG群里就讨论开了, 这篇由以色列理工和谷歌合作发表的sinGAN, 获得了会议的best paper, 效果很神奇, 应用也很广泛, 下面对其做一些介绍.
我有一只小肥猫
我有一只小猫咪, 我从来也不洗.
Paper Reading - ICCV 2019 "Disentangled Image Matting"
2019年10月27日举行了ICCV会议, 旷视有一些论文被收录, 刚好看到有LLCV组的同事有论文在列, 做的东西也是组内业务所驱动的人像抠图(Image Matting)方向, 所以就把这篇文章给读了一下, 文章结构很清晰, 接下来针对内容做一些记录.