Optical flow -- FlowNet & FlowNet 2.0

发表于 2019-11-30 | 分类于 paper-reading

| 字数统计： 3487 | 阅读时长约 11 mins

什么是光流? 字面上的意思就是光的流动. 通过追踪视频前后帧对应像素点之间的位移, 可用于视频防抖, 视频压缩等领域. 曾经见过同事用光流法做视频的多帧对齐融合降噪, 五颜六色的光流图看起来很酷炫. 所以出于好奇, 看了一些关于光流的基本知识和经典文章, 下面做一些记录.

阅读全文 »

Visual Attention

发表于 2019-11-22 | 分类于 paper-reading

| 字数统计： 2221 | 阅读时长约 7 mins

因为在做硕士课题的过程中碰到了一些时序上的多帧处理, 就采用了Encoder-Decoder + ConvLSTM cell来做时序上的演化. 调研了一些文献, 发现相关的工作确实比较少, 大多集中在Image to caption, video object segmentation, semantic instance segmentation方面, 且大部分发表在早期的2015-2016年间, 随后都转向attention的研究工作了. RNN存在占用显存大、超长时记忆缺陷的问题, 做NLP的早已全面抛弃RNN转向attention的怀抱, 这些年CV方面也慢慢地向attention靠拢, 以后是个趋势, 所以学习了一下attention到底是个什么东西, 下面做一些记录.

阅读全文 »

配置VS Code

发表于 2019-11-17 | 分类于 computer-skills

| 字数统计： 1003 | 阅读时长约 3 mins

VS Code是世界上最好的IDE! Visual Studio、Pycharm加载太慢, Vim键盘操作对菜鸟不友好, Jupyter Notebook版本管理混乱, Spyder太鸡肋. 在这几个IDE之间游走了很久, 最后下定决心, 把所有的生产工作全部集中到VS Code上. 优点是轻量化, 跨平台通用, 支持丰富的插件. 下面记录一下当前采用的VS Code配置, 以便以后在新的平台上部署生产力.

阅读全文 »

Paper review - Faster RCNN/YOLO/SSD & Paper Reading - ICCV 2019 "ThunderNet - Towards Real-time Generic Object Detection"

发表于 2019-11-06 | 分类于 paper-reading

| 字数统计： 5103 | 阅读时长约 17 mins

旷视detection组的一篇轻量级two-stage目标检测论文, 起的名字很好听, ThunderNet, 所以就特意找出来看一看. 以前接触detection比较少, 就趁这个机会把一些经典的object detection论文找出来读一读, 主要有two-stage的Faster-RCNN和ont-stage的YOLO、SDD, 它们奠定了一些基本的思路和框架, 新发表的论文基本是在此基础上做延伸, 有需要的时候再细看, 下面是一些总结. (全文4000多字, 涉及4篇paper, 27张图, 加载起来可能比较慢.)

阅读全文 »

Paper Reading - ECCV 2016 "Perceptual Losses for Real-Time Style Transfer and Super-Resolution"

发表于 2019-11-05 | 分类于 paper-reading

| 字数统计： 1309 | 阅读时长约 4 mins

这是李飞飞课题组的一篇文章, 与传统的pixel-wise loss不同, 用feature loss来衡量距离, 在迁移学习和超分辨率有一些用途. 突然回想起来以前同事在单帧超画质的模型中用到过, 当时还不知道是什么东西, 现在对文章内容做一些介绍.

阅读全文 »

Paper Reading - ICCV 2019 oral "Toward Real-World Single Image Super-Resolution - A New Benchmark and A New Model"

发表于 2019-11-04 | 分类于 paper-reading

| 字数统计： 1510 | 阅读时长约 5 mins

有什么样的数据, 就能训出什么样的丹, 这是我在实习的时候mentor所传授的经验. 经常客户爸爸反馈模型在某些场景下不work了, 我们就需要在训练集中加入bad case下的数据, 或者augmentation做得狠一点, 新一版的模型就能work了. ICCV的这篇oral思路也是一样, 获取真实场景下的数据去训练模型, 接下来做一下记录.

阅读全文 »