以及 c t − 1 c_{t-1}ct−1 就是t之前序列的時間信息,得益于記憶狀態c cc,ConvLSTM具有長期記憶的能力, 而利用Conv來捕捉t時刻的特征與其之前狀態的一個運動信息,但是由于卷積時的感受野比較小,所以ConvLSTM處理大幅運動的能力有限,而這會導致錯誤信息的不斷傳播和累積。
為了更好處理大幅運動的視頻,這篇工作在ConvLSTM中嵌入了可變形卷積操作,利用可變形卷積分別捕捉[ h t − 1 , F t L ] [h_{t-1},F^L_t][ht−1,FtL]和c t − 1 , F t L ] c_{t-1},F^L_t]ct−1,FtL]之間的運行信息并實現時間上的對齊,得到[ h t − 1 a , c t − 1 a ] [h^a_{t-1},c^a_{t-1}][ht−1a,ct−1a] ,然后再利用ConvLSTM繼續進行時間信息的聚集和特征融合,并向下傳播,過程的示意圖如下所示:
圖3 嵌入可變形卷積的ConvLSTM
同時,為了更好利用全局的時間信息,實際上使用了雙向的可變形 ConvLSTM(Bidirectional Deformable ConvLSTM),生成融合了過去和未來信息的特征序列{ h t } t 2 n + 1 \{h_t\}^{2n+1}_t{ht}t2n+1。
2.3 幀重建模塊
幀重建模塊則是使用了一個時間共享的合成網絡,輸入當個時間步的隱藏狀態h t h_tht,然后輸出對應的HR frame,具體來說就是使用了k 2 k_2k2個殘差塊提取深度特征信息,然后通過亞像素卷積(sub-pixel)+PixelShuffle重建出HR frames { I t t } t = 1 2 n + 1 \{I^t_t\}^{2n+1}_{t=1}{Itt}t=12n+1。重建損失函數如下: l r e c = ∣ ∣ I G T t − I t H ∣ ∣ 2 + ϵ 2 l_{rec}=\sqrt {||I^GT_t-I^H_t||^2+\epsilon^2}lrec=∣∣IGTt−ItH∣∣2+ϵ2
ϵ 2 \epsilon^2ϵ2是一個經驗值,設置為1e-3,為了保證訓練的穩定性(我認為:數值穩定---->訓練穩定)