什么是光流? 字面上的意思就是光的流动. 通过追踪视频前后帧对应像素点之间的位移, 可用于视频防抖, 视频压缩等领域. 曾经见过同事用光流法做视频的多帧对齐融合降噪, 五颜六色的光流图看起来很酷炫. 所以出于好奇, 看了一些关于光流的基本知识和经典文章, 下面做一些记录.
Visual Attention
因为在做硕士课题的过程中碰到了一些时序上的多帧处理, 就采用了Encoder-Decoder + ConvLSTM cell
来做时序上的演化. 调研了一些文献, 发现相关的工作确实比较少, 大多集中在Image to caption
, video object segmentation
, semantic instance segmentation
方面, 且大部分发表在早期的2015-2016年间, 随后都转向attention
的研究工作了. RNN存在占用显存大、超长时记忆缺陷的问题, 做NLP的早已全面抛弃RNN转向attention
的怀抱, 这些年CV方面也慢慢地向attention
靠拢, 以后是个趋势, 所以学习了一下attention
到底是个什么东西, 下面做一些记录.
配置VS Code
VS Code是世界上最好的IDE! Visual Studio、Pycharm加载太慢, Vim键盘操作对菜鸟不友好, Jupyter Notebook版本管理混乱, Spyder太鸡肋. 在这几个IDE之间游走了很久, 最后下定决心, 把所有的生产工作全部集中到VS Code上. 优点是轻量化, 跨平台通用, 支持丰富的插件. 下面记录一下当前采用的VS Code配置, 以便以后在新的平台上部署生产力.
Paper review - Faster RCNN/YOLO/SSD & Paper Reading - ICCV 2019 "ThunderNet - Towards Real-time Generic Object Detection"
旷视detection组的一篇轻量级two-stage目标检测论文, 起的名字很好听, ThunderNet, 所以就特意找出来看一看. 以前接触detection比较少, 就趁这个机会把一些经典的object detection论文找出来读一读, 主要有two-stage的Faster-RCNN和ont-stage的YOLO、SDD, 它们奠定了一些基本的思路和框架, 新发表的论文基本是在此基础上做延伸, 有需要的时候再细看, 下面是一些总结. (全文4000多字, 涉及4篇paper, 27张图, 加载起来可能比较慢.)
Paper Reading - ECCV 2016 "Perceptual Losses for Real-Time Style Transfer and Super-Resolution"
这是李飞飞课题组的一篇文章, 与传统的pixel-wise loss不同, 用feature loss来衡量距离, 在迁移学习和超分辨率有一些用途. 突然回想起来以前同事在单帧超画质的模型中用到过, 当时还不知道是什么东西, 现在对文章内容做一些介绍.
Paper Reading - ICCV 2019 oral "Toward Real-World Single Image Super-Resolution - A New Benchmark and A New Model"
有什么样的数据, 就能训出什么样的丹, 这是我在实习的时候mentor所传授的经验. 经常客户爸爸反馈模型在某些场景下不work了, 我们就需要在训练集中加入bad case下的数据, 或者augmentation做得狠一点, 新一版的模型就能work了. ICCV的这篇oral思路也是一样, 获取真实场景下的数据去训练模型, 接下来做一下记录.
GAN Loss
看完了sinGAN的源码之后, 针对其GAN loss的形式有些不解, 所以找了一些关于GAN loss的文献资料, 在此做一些记录.
Paper Reading - ICCV 2019 best paper "SinGAN - Learning a Generative Model from a Single Natural Image"
一直觉得GAN是很神奇的东西, 就在ICCV会议召开的那几天, CVCG群里就讨论开了, 这篇由以色列理工和谷歌合作发表的sinGAN, 获得了会议的best paper, 效果很神奇, 应用也很广泛, 下面对其做一些介绍.
我有一只小肥猫
我有一只小猫咪, 我从来也不洗.
Paper Reading - ICCV 2019 "Disentangled Image Matting"
2019年10月27日举行了ICCV会议, 旷视有一些论文被收录, 刚好看到有LLCV组的同事有论文在列, 做的东西也是组内业务所驱动的人像抠图(Image Matting)方向, 所以就把这篇文章给读了一下, 文章结构很清晰, 接下来针对内容做一些记录.