Diffusion Models in Vision Questions What is Diffusion Model? How diffusion models work? What can diffusion models do? 近期diffusion model在很多地方都被应用,如Tsinghua - Liu Yebin团队CVPR paper DiffuStereo,在此对扩散模型做一个简单的阅读,提出三个问题看在文档结尾能否给自已一 2023-02-10 diffusion #deep learning #diffusion
Stereo Vision Stereo Vision: A Brief Introduction如何获取三维信息从相机模型可以了解我们是如何将三维世界的物体映射到二维图片上的。 在投影的过程中,我们丢失了三维点的深度信息,通过小孔成像数学模型我们可以知道,通过单目相机我们理论上无法恢复图片中每一个点在原空间中的位置。在处理如三维重建等3D任务时,我们需要知道每一个点在原三维空间中的位置,这时只使用单目RGB相机难以达成我 2022-07-06 3D Basic #stereo matching
Implicit Geometric Regularization IGR: Implicit Geometric Regularization for Learning Shapes这篇发表于ICML 2020的文章介绍了一种对隐式表面表征的约束,从效果来看也是十分惊艳的,并且文章的方法也有说服力。 初读和困惑输入为有向或无向点云(即是否带法向信息),训练MLP来判断Volume中每一个点的数值是多少。框架非常简洁明了,关键在于这个损失函数的构造。 $$l(\ 2022-07-04 paper reading #volume reconstruction #implicit function
2D图像的傅里叶变换 图像的频域信息最近在看一些文章的时候,采用了谱方法来解Poisson Equation,大部分采用的谱方法是用傅里叶变换来完成。同样在一些文章中将图片转换为频域信息进行分析,也是使用了傅里叶变换将空域图像转化为频域。因此稍微深入了解了一下二维图像的傅里叶变换。 在进入2D傅里叶变换前,我们先要回顾一下一维的傅里叶变换。 傅里叶变换傅里叶变换,Fourier Transformation,是一种线性 2022-06-30 math #math
SGM Semi-Global MatchingSemi-Global Matching,即半全局匹配,是双目立体匹配中一项非常出色的工作。SGM由Heiko Hirschmuller于2007年在T-PAMI上发表的文章Stereo Processing by Semi-Global Matching and Mutual Information提出。Semi-Global顾名思义,是介于全局和局部之间 2022-06-28 3D Algorithm #stereo matching #traditional
Diving into NeRF-PyTorch Diving into NeRF-PyTorchNeRF,即Neural Radiance Fields,由Ben Mildenhall等人于ECCV2020在文章NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis中提出。 本质上,NeRF和DeepSDF类似,都是将信息encode到神经网络中,而NeRF利 2022-06-27 code reading #NeRF #code reading
CUDA Memory Copy CUDA memcpy CUDA Memory Copy CUDA内存拷贝在CUDA程序的内存数据拷贝中包含以下几种情况:Host2Device、Device2Host和Device2Device(Host2Host即正常程序中的copy)。在刚开始编写CUDA程序时对cudaArray和其他DeviceArray的copy存在较大的疑惑,在此对CUDA memcpy进行一个尽量详细的记录。 c 2022-06-25 CUDA #CUDA
OpenGL渲染流程 OpenGL渲染流程 OpenGL,Open Graphics Library 渲染管线在OpenGL中,任何事物都处于3D空间中,而屏幕和窗口却都是2D像素数组,这就导致了OpenGL大部分工作都是关于把3D坐标转变为适配你屏幕的2D像素。 渲染管线,指的是一堆原始图形数据途经一个输送管道,期间经过各种变化处理最终出现在屏幕的过程。图形渲染管线(3D坐标→2D坐标)主要可划分为:把3D坐标转换 2022-06-25 render #opengl
Occypancy Networks Occupancy Networks Occupancy Networks: Learning 3D Reconstruction in Function Space Target将3D表面使用深度神经网络表示称连续的分类(二分类)问题。 核心思想在空间体素中,需要重建的物体的占有率并不是离散的3D点位置,而是每一个可能的3D点$p\in \mathbb{R}^3$,均有推论函数(occupan 2022-06-25 paper reading #volume reconstruction
Marching Cubes Marching CubesMarching Cubes算法是三维离散数据场中提取等值面的经典算法,其主要应用于医学领域的可视化场景,例如CT扫描和MRI扫描的3D重建等值面,即空间中所有具有某个相同值的点的集合,可以类比为地形图里的等高线。 ${ (x,y,z)|f(x,y,z)=c, c\in C }$ 算法思想 基本假设:沿六面体边的数据场呈连续性变化。如果一条边的两个顶点分别大 2022-06-25 3D Basic #volume