Abstract
關于時空超分辨(STVSR)模型的設計策略:
- 二階段模型(two-stage)
- 一階段模型(one-stage)
模型設計
圖1 模型結構圖
1. 模型主要由四個部分組成:
-
特征提取模塊(feature extractor)
該模塊由一個Conv layer + k 1 k_1k1個殘差塊組成,負責提取輸入幀特征。
-
中間幀特征插值模塊(frame feature temporal interpolation module)
該模塊根據輸入的特征序列信息{ F 2 t − 1 L } t = 1 n + 1 \{F^L_{2t-1}\}^{n+1}_{t=1}{F2t−1L}t=1n+1,預測輸出中間幀序列的特征{ F 2 t L } t = 1 n \{F^L_{2t}\}^{n}_{t=1}{F2tL}t=1n。
-
Deformable ConvLSTM
該模塊則是對整個特征序列進行一個時間對齊和特征聚合 。
-
高分辨率幀重建模塊(HR frame reconstructor)
利用經過時空融合后的特征序列生成最后的高清高分辨視頻序列
2.主要模塊
2.1 中間幀特征插值模塊
二階段方法(VFI+VSR)中往往是在像素級(pixel-wise)上先生成中間幀,然后對插幀后的序列進行超分辨,為了以one-stage的方式完成插幀和超分,該模塊對輸入幀特征進行采樣融合來生成中間幀特征。根據插幀的經驗,要生成中間幀特征,需要利用上下文特征間的雙向運動信息來近似估計兩側到中間的運動信息(forward motion information and backwarp motion information),然后再進一步融合這兩側運動信息和上下文特征從而生成中間幀特征。
至于如何估計上下文特征間的雙向運動信息,該模塊采用了可變形卷積,認為其不規則的采樣區域,具備比較強大的對幾何物體運動建模的能力,能夠從上下文特征中捕捉比較豐富的運動信息,以更好應對包含復雜運動和大幅運動的視頻場景,運動信息估計模塊如下圖所示:
圖2 可變形卷積估計運動信息近似生成中間特征
值得注意的是這里的blending操作采用的是簡單的線性混合函數來結合T 1 T_1T1以及T 3 T_3T3,具體公式如下:
F 2 L = α ∗ T 1 ( F 1 L , Φ 1 ) + β ∗ T 3 ( F 3 L , Φ 3 ) F^L_2 = \alpha*T_1(F^L_1,\Phi_1)+\beta*T_3(F^L_3,\Phi_3)F2L=α∗T1(F1L,Φ1)+β∗T3(F3L,Φ3)
其中,α 和 β \alpha和\betaα和β 指的是兩個1x1的卷積核,而∗ *∗則代表的是卷積操作。
2.2 Deformable ConvLSTM
生成完整的視頻幀特征序列{ F t L } t = 1 2 n + 1 \{F^L_t\}^{2n+1}_{t=1}{FtL}t=12n+1 后,就需要利用該特征序列來生成HR Frames。顯然,對于整個序列來說,時間信息是非常重要的,且為了保證生成HR video的時間一致性,需要有效利用序列所隱藏的幀間信息。這篇工作,則考慮使用ConvLSTM來在序列間傳播時間信息,同LSTM一樣,ConvLSTM通過融合前面傳遞到當前時間步t的隱藏狀態h t − 1 h_{t-1}ht−1,記憶狀態c t − 1 c_{t-1}ct−1和時間步t的特征,輸出h t h_tht和c t c_tct然后繼續向下傳播時間信息,大致公式如下所示:
h t , c t = C o n v L S T M ( h t − 1 , c t − 1 , F t L ) h_t,c_t = ConvLSTM(h_{t-1},c_{t-1},F^L_t)ht,ct=ConvLSTM(ht−1,ct−1,FtL)
h t − 1 h_{t-1}ht−1 [1] [2] 下一頁
|