Wayne Fung's blog


  • 首页

  • 分类

  • 标签

  • 归档

  • 关于

Optical flow -- FlowNet & FlowNet 2.0

发表于 2019-11-30 | 分类于 paper-reading
| 字数统计: 3487 | 阅读时长约 11 mins

  什么是光流? 字面上的意思就是光的流动. 通过追踪视频前后帧对应像素点之间的位移, 可用于视频防抖, 视频压缩等领域. 曾经见过同事用光流法做视频的多帧对齐融合降噪, 五颜六色的光流图看起来很酷炫. 所以出于好奇, 看了一些关于光流的基本知识和经典文章, 下面做一些记录.

阅读全文 »

Visual Attention

发表于 2019-11-22 | 分类于 paper-reading
| 字数统计: 2221 | 阅读时长约 7 mins

  因为在做硕士课题的过程中碰到了一些时序上的多帧处理, 就采用了Encoder-Decoder + ConvLSTM cell来做时序上的演化. 调研了一些文献, 发现相关的工作确实比较少, 大多集中在Image to caption, video object segmentation, semantic instance segmentation方面, 且大部分发表在早期的2015-2016年间, 随后都转向attention的研究工作了. RNN存在占用显存大、超长时记忆缺陷的问题, 做NLP的早已全面抛弃RNN转向attention的怀抱, 这些年CV方面也慢慢地向attention靠拢, 以后是个趋势, 所以学习了一下attention到底是个什么东西, 下面做一些记录.

阅读全文 »

配置VS Code

发表于 2019-11-17 | 分类于 computer-skills
| 字数统计: 1003 | 阅读时长约 3 mins

  VS Code是世界上最好的IDE! Visual Studio、Pycharm加载太慢, Vim键盘操作对菜鸟不友好, Jupyter Notebook版本管理混乱, Spyder太鸡肋. 在这几个IDE之间游走了很久, 最后下定决心, 把所有的生产工作全部集中到VS Code上. 优点是轻量化, 跨平台通用, 支持丰富的插件. 下面记录一下当前采用的VS Code配置, 以便以后在新的平台上部署生产力.

阅读全文 »

Paper review - Faster RCNN/YOLO/SSD & Paper Reading - ICCV 2019 "ThunderNet - Towards Real-time Generic Object Detection"

发表于 2019-11-06 | 分类于 paper-reading
| 字数统计: 5103 | 阅读时长约 17 mins

  旷视detection组的一篇轻量级two-stage目标检测论文, 起的名字很好听, ThunderNet, 所以就特意找出来看一看. 以前接触detection比较少, 就趁这个机会把一些经典的object detection论文找出来读一读, 主要有two-stage的Faster-RCNN和ont-stage的YOLO、SDD, 它们奠定了一些基本的思路和框架, 新发表的论文基本是在此基础上做延伸, 有需要的时候再细看, 下面是一些总结. (全文4000多字, 涉及4篇paper, 27张图, 加载起来可能比较慢.)

阅读全文 »

Paper Reading - ECCV 2016 "Perceptual Losses for Real-Time Style Transfer and Super-Resolution"

发表于 2019-11-05 | 分类于 paper-reading
| 字数统计: 1309 | 阅读时长约 4 mins

  这是李飞飞课题组的一篇文章, 与传统的pixel-wise loss不同, 用feature loss来衡量距离, 在迁移学习和超分辨率有一些用途. 突然回想起来以前同事在单帧超画质的模型中用到过, 当时还不知道是什么东西, 现在对文章内容做一些介绍.

阅读全文 »

Paper Reading - ICCV 2019 oral "Toward Real-World Single Image Super-Resolution - A New Benchmark and A New Model"

发表于 2019-11-04 | 分类于 paper-reading
| 字数统计: 1510 | 阅读时长约 5 mins

  有什么样的数据, 就能训出什么样的丹, 这是我在实习的时候mentor所传授的经验. 经常客户爸爸反馈模型在某些场景下不work了, 我们就需要在训练集中加入bad case下的数据, 或者augmentation做得狠一点, 新一版的模型就能work了. ICCV的这篇oral思路也是一样, 获取真实场景下的数据去训练模型, 接下来做一下记录.

阅读全文 »

GAN Loss

发表于 2019-11-04 | 分类于 paper-reading
| 字数统计: 1475 | 阅读时长约 4 mins

  看完了sinGAN的源码之后, 针对其GAN loss的形式有些不解, 所以找了一些关于GAN loss的文献资料, 在此做一些记录.

阅读全文 »

Paper Reading - ICCV 2019 best paper "SinGAN - Learning a Generative Model from a Single Natural Image"

发表于 2019-11-03 | 分类于 paper-reading
| 字数统计: 1406 | 阅读时长约 4 mins

  一直觉得GAN是很神奇的东西, 就在ICCV会议召开的那几天, CVCG群里就讨论开了, 这篇由以色列理工和谷歌合作发表的sinGAN, 获得了会议的best paper, 效果很神奇, 应用也很广泛, 下面对其做一些介绍.

阅读全文 »

我有一只小肥猫

发表于 2019-11-02 | 分类于 life
| 字数统计: 834 | 阅读时长约 2 mins

  我有一只小猫咪, 我从来也不洗.

阅读全文 »

Paper Reading - ICCV 2019 "Disentangled Image Matting"

发表于 2019-11-02 | 分类于 paper-reading
| 字数统计: 755 | 阅读时长约 2 mins

  2019年10月27日举行了ICCV会议, 旷视有一些论文被收录, 刚好看到有LLCV组的同事有论文在列, 做的东西也是组内业务所驱动的人像抠图(Image Matting)方向, 所以就把这篇文章给读了一下, 文章结构很清晰, 接下来针对内容做一些记录.

阅读全文 »
1 2 3
Wayne Fung

Wayne Fung

Stay motivated & Be contented

22 日志
3 分类
17 标签
RSS
GitHub Zhihu
友情链接
  • Liam Huang
  • Yunfeng
© 2019 - 2020 Wayne Fung