论文笔记||Customizing Painterly Rendering Styles Using Stroke Processes

2021/04/05 PaperNotes 共 2671 字,约 8 分钟

​本文提出的基于笔触方法对照片进行油画风格渲染的方法,主要聚焦于如何将感知层面上的油画风格特性(如笔触大小、色彩浓度等等)在“绘制”(stroke placement)的过程中体现到渲染结果里,从而实现在同一个模型中生成可以根据用户需求调整的不同风格的渲染效果。虽然前述才是本文的亮点,但本博客将主要尝试解说文章中利用马尔可夫邻接图以及随机反应扩散方程生成最终笔触效果的方法。

[TOC]

Stroke Neighborhood Graph

笔触邻接图

​马尔可夫邻接图是一个无向图,它将一个具有马尔可夫性质的随机变量的集合用无向图的形式描述了出来;马尔可夫性质是指一个随机过程的无记忆性,即其未来状态只依赖于当前状态。具体而言,本文所使用的笔触邻接图(Markov stroke neighborhood graph)中每一个顶点都表示特定采样位置上的一个笔触(矩形),只有有边直接相连的顶点之间能够相互影响,在后续的属性过程中,反应扩散的信息将沿着这些边进行传递。一个与笔触邻接图类似的马尔科夫随机场的例子是这样一块菜地:任何一小块地里种的菜的种类仅仅与它临近的菜的种类有关,而与其他位置的菜的种类无关。本文采用了一种基于采样点间距离以及笔触取向(orientation)的各向异的邻接图生成规则;与各向同的规则相比,本方法能够生成边分布更均匀的邻接图,从而获得更好的渲染效果。

生成

​笔触邻接图的生成在笔触位置图(stroke positions)的基础上分三步完成。第一步,由未经处理的原图像生成参考取向图(方法:diffusing segmentation boundaries and salient sketches);第二步,按笔触为单位处理,以每一个笔触(矩形)的中心为原点建立直角坐标系,坐标轴的取向能够使得矩形的两对称轴与直线$x\pm y=0$重合。

​第三步,按一各向异的规则将笔触的中心(即无向图的顶点)连接起来。对于每一个顶点及其在第二步中确定的直角坐标系,在各象限中找到一个距离原点最近的笔触中心并将其与原点连接;但每一个作为原点的笔触不一定会和恰好四个笔触连接起来,若某象限内的最近笔触与原点的距离超出了规定的值,该笔触将被忽略;若某象限内的最近笔触并不属于同一区域(图像的分割在笔触位置确定之前就已经完成),该笔触将被忽略;一个笔触在作为原点时可能已经与四个笔触相连了,但由于此方法的不对称性,可能会存在第五个笔触在以自身为原点时将前述笔触连接了起来,那么前述笔触就有了五个邻接笔触。

Attribute Processes for Stroke Orientations, Sizes and Colors

​笔触的取向、大小以及色调等信息都是通过笔触邻接图上迭代的反应扩散过程计算确定的。反应扩散系统(reaction-diffusion system)中最具代表性的例子就是化学反应中的空间与时间变化过程:局部的反应使得物质之间相互转化,而扩散使得物质在空间上发生移动(spread out)。从数学的角度来说,反应扩散方程是一个半线性的抛物型微分方程,具有一定的形式。具体到这里的笔触属性,“扩散”将使得各属性沿邻接的笔触相互作用,在迭代中不断降低对比度(或增强对比度);“反应”则将在迭代中保持原图像中的基本信息。由于各属性的反应扩散过程基本差不多,而取向在其中较为特殊,所以下面主要梳理取向的反应扩散过程是如何进行的。

​对于笔触取向$\theta$的反应扩散过程,相关公式列于下方:

​其中(1)式即为笔触取向对应的反应扩散方程。$\frac{d\theta}{dt}$为笔触取向随时间的变化速率,$\epsilon_{\theta}$是一个用于模拟绘画中自然的随机性的随机噪声值,扩散率$\lambda_{\theta}$的取值受用户给定的“局部均匀性”(local isotropy)值决定。

​$D(\theta)$即“扩散项”,具体定义为(2)式,$\theta_n$即为第n次迭代后该笔触的取向,$\omega_n$为与笔触间距离成反比的权重值。$D(\theta)$的定义源于取向值$\theta$本身以$2\pi$为周期的特征(由此采用的特定的定义形式)。

​$R(\theta)$为“局部反应项”,由(3)式定义。$\theta^*$即每一笔触在前面提到的“参考取向图”中的取向。由定义可知,$R(\theta)$在每一次迭代中对迭代结果的取值都施加着来自原图像的影响(参考取向图完全来自原图像),也就起到了保持信息的作用。

​在迭代的过程中,笔触邻接图需要根据每一次得到的新的$\theta_n$值进行更新(因为笔触邻接图的拓扑结构受笔触取向影响,前面已有解说);随着$\theta_n$值的收敛,整个笔触邻接图(马尔科夫随机场)的场能将接近一个最小值(忽略随机噪声时可以计算达到,(4)式即忽略了噪声的场能计算式),此时的$\theta_n$就是笔触取向的最终结果。

碎碎念

​本篇论文的最大亮点应该是其将绘画(主要是油画)的感知层面的特征总结成了8个可以运算的参数,但由于本人知识积累不多,所以更倾向于总结整理文中具体生成结果的方法。个人感觉,这篇11年的工作所能生成的结果已经非常非常完美了(下面放了个论文附图),且其中的创新也是从“用户交互”“感知”层面来做的,纯技术的创新不多。我将我的感受和老师聊了一下,老师也说到非真实感渲染这一块的主观性比较强而技术发展比较完备,除了感知层面的创新以外,如果还想提出技术层面的新东西的话一般都是往这一领域引入新的方法(指出一个新的研究方向,比如用机器学习的方法来做就是一种创新)。但要是想基于传统图形学来提出新方法的话,就需要很多很多的积累,这也是师兄强调的一点。(和老师聊了一下子还听到一个有意思的:搞传统图形学的可能不太认可搞深度学习的,为什么呢?)总之接下来还是一边搞点感兴趣的东西看看一边系统地学习图形学吧。

​这一篇博客也是我第一篇真正意义的博客,还不太知道怎么写;不过深一步地说,本质是还不太明白怎么阅读一篇论文。之前那些论文笔记实际上还是“翻译”的色彩浓一点,很多细节其实没有理解清楚,只是把英语表述的方法用中文复述了一遍而已。但如果是博客的话,说不定(只是说不定)会有人来观光,如果我的文字真的能帮助到一些困惑的同学的话那当然是再好不过了,要达到这一点首先写作者得把内容悟清楚,这么说也是对我自己的学习提出了更高的要求吧。不过一个大问题是目前的效率还是太低,心有余而力不足……慢慢来吧=D

文档信息

Search

    Table of Contents