This document summarizes a presentation on offline reinforcement learning. It discusses how offline RL can learn from fixed datasets without further interaction with the environment, which allows for fully off-policy learning. However, offline RL faces challenges from distribution shift between the behavior policy that generated the data and the learned target policy. The document reviews several offline policy evaluation, policy gradient, and deep deterministic policy gradient methods, and also discusses using uncertainty and constraints to address distribution shift in offline deep reinforcement learning.
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
13. スペクトル上のフィルタがλのk次多項式と仮定
𝐻 𝜆𝑖 =
𝑝=0
𝐾
𝛼 𝑝 𝜆𝑖
𝑝
13
スペクトル上でのフィルタリング
スペクトル上でのフィルタリング
上の式を書き換え
𝑓(𝑗) =
𝑖=0
𝑁−1
𝐹(𝜆𝑖) 𝐻(𝜆𝑖)𝑢 𝜆 𝑖
(𝑗)
𝐹(𝜆𝑖) =
𝒋=𝟎
𝑵−𝟏
𝑓(𝑗) 𝑢 𝜆 𝑖
∗
(𝑗)
0
1
1
( )
( )
( )
T
N
H
H
H
U U f
フィルタ
グラフ上のフーリエ変換
14. 14
スペクトル上でのフィルタリング
𝑓(𝑘) =
𝑖=0
𝑁−1
𝐹(𝜆𝑖) 𝐻(𝜆𝑖)𝑢 𝜆 𝑖
(𝑘)
λのk次多項式フィルタ
𝐻 𝜆𝑖 =
𝑝=0
𝐾
𝛼 𝑝 𝜆 𝑝
グラフ上のフーリエ変換
𝐹(𝜆𝑖) =
𝑗=0
𝑁−1
𝑓(𝑗) 𝑢 𝜆 𝑖
∗
(𝑗)
空間上でのフィルタリング
𝑓(𝑘) = 𝑎 𝑘𝑘 𝑓 𝑘 +
𝑗𝜖 𝑵 𝑘
𝑎 𝑘𝑗 𝑓(𝑗)
1
0
( ) ( ) ( ) ( )i
N
i ii
f k F H u k
λλ λ
1 1 *
0 0 0
( ) ( ) ( )i i
N K N p
ij p i
f j u j u k
p λ λα λ
スペクトル上でのフィルタリング
15. • 橙枠はグラフラプラシアン L の p 乗
𝑳 𝑝
= 𝑼𝜦 𝑝
𝑼 𝑻
1 1 *
0 0 0
1
0 0
( ) ( ) ( )
( ) ( )
i i
N K N p
ij p i
N K p
kjj p
f j u j u k
f j L
p λ λ
p
α λ
α
1
0
( ) ( ) ( ) ( )i
N
i ii
f k F H u k
λλ λ
15
スペクトル上でのフィルタリング
スペクトル上でのフィルタリング
𝑓(𝑘) =
𝑖=0
𝑁−1
𝐹(𝜆𝑖) 𝐻(𝜆𝑖)𝑢 𝜆 𝑖
(𝑘)
λのk次多項式フィルタ
𝐻 𝜆𝑖 =
𝑝=0
𝐾
𝛼 𝑝 𝜆 𝑝
グラフ上のフーリエ変換
𝐹(𝜆𝑖) =
𝑗=0
𝑁−1
𝑓(𝑗) 𝑢 𝜆 𝑖
∗
(𝑗)
空間上でのフィルタリング
𝑓(𝑘) = 𝑎 𝑘𝑘 𝑓 𝑘 +
𝑗𝜖 𝑵 𝑘
𝑎 𝑘𝑗 𝑓(𝑗)
16. • 橙枠はグラフラプラシアン L の p 乗
𝑳 𝑝
= 𝑼𝜦 𝑝
𝑼 𝑻
1 1 *
0 0 0
1 1 *
0 0 0
1
0 0
( ) ( ) ( )
( ) ( ) ( )
( ) ( )
i i
i i
N N K p
ii j p
N K N p
ij p i
N K p
kjj p
f j u j u k
f j u j u k
f j L
λ p λ
p λ λ
p
α λ
α λ
α
1
0
( ) ( ) ( ) ( )i
N
i ii
f k F H u k
λλ λ
16
スペクトル上でのフィルタリング
𝐿 𝑝
=
𝑢 𝜆0
(0) 𝑢 𝜆0
(1) 𝑢 𝜆0
(2)
𝑢 𝜆1
(0) 𝑢 𝜆1
(1) 𝑢 𝜆1
(2)
𝑢 𝜆2
(0) 𝑢 𝜆2
(1) 𝑢 𝜆2
(2)
𝜆0
𝑝
0 0
0 𝜆1
𝑝
0
0 0 𝜆2
𝑝
𝑢 𝜆0
∗
(0) 𝑢 𝜆1
∗
(0) 𝑢 𝜆2
∗
(0)
𝑢 𝜆0
∗
(1) 𝑢 𝜆1
∗
(1) 𝑢 𝜆2
∗
(1)
𝑢 𝜆0
∗
(2) 𝑢 𝜆1
∗
(2) 𝑢 𝜆2
∗
(2)
=
𝑢 𝜆0
(0) 𝑢 𝜆0
(1) 𝑢 𝜆0
(2)
𝑢 𝜆1
(0) 𝑢 𝜆1
(1) 𝑢 𝜆1
(2)
𝑢 𝜆2
(0) 𝑢 𝜆2
(1) 𝑢 𝜆2
(2)
𝑢 𝜆0
∗
(0)𝜆0
𝑝
𝑢 𝜆1
∗
(0)𝜆0
𝑝
𝑢 𝜆2
∗
(0)𝜆0
𝑝
𝑢 𝜆0
∗
(1)𝜆1
𝑝
𝑢 𝜆1
∗
(1)𝜆1
𝑝
𝑢 𝜆2
∗
(1)𝜆1
𝑝
𝑢 𝜆0
∗
(2)𝜆2
𝑝
𝑢 𝜆1
∗
(2)𝜆2
𝑝
𝑢 𝜆2
∗
(2)𝜆2
𝑝
17. スペクトル上でのフィルタリング
𝑳 𝑝
= 𝑼𝜦 𝑝
𝑼 𝑻
𝑎 𝑘𝑗 =
𝑝=0
𝐾
𝛼 𝑝(𝐿 𝑝) 𝑘𝑗
空間上でのフィルタリング
𝑓(𝑘) =
𝑗𝜖 𝑵 𝑘
𝑎 𝑘𝑗 𝑓(𝑗)
• スペクトル上でも空間上でのフィルタリングと
同じことを行うことが可能であると示された
空間上でのフィルタリング
• 注目ノードとその隣接ノードにフィルタ係数を
かけて和を求めること
17
スペクトル上でのフィルタリング
1 1 *
0 0 0
1
0 0
( ) ( ) ( )
( ) ( )
i i
N K N p
ij p i
N K p
kjj p
f j u j u k
f j L
p λ λ
p
α λ
α
1
0
( ) ( ) ( ) ( )i
N
i ii
f k F H u k
λλ λ
(1)
(2)
𝑎 𝑘𝑗
スペクトル領域上でフィルタ
(式1)
𝑎 𝑘𝑗
空間上でのフィルタ
(式2)
=
18. スペクトル領域上での畳み込み
𝒚 = 𝑼𝑔 𝜃 𝜦 𝑼 𝑻 𝒙 = 𝑔 𝜃 𝑼𝜦𝑼 𝑻 𝒙 = 𝑔 𝜃 𝑳 𝒙
• フィルタ𝑔 𝜃(𝑳)
𝑔 𝜃(𝑳)=
𝑘=0
𝐾−1
𝜃 𝑘 𝑳 𝑘
• 𝑎 𝑘𝑗 を学習することで,
注目ノードからKステップ離れたノードまで
を畳み込む
グラフ上でのフィルタリングからグラフ上の畳み込みへの導出
18
スペクトル領域上でのフィルタリング
• フィルタ 𝑎 𝑘𝑗
𝑎 𝑘𝑗 =
𝑝=0
𝐾
𝛼 𝑝(𝐿 𝑝) 𝑘𝑗
• ノードkに対してpステップで行ける
ノードに対してフィルタリングできる
1 1 *
0 0 0
1
0 0
( ) ( ) ( )
( ) ( )
i i
N K N p
ij p i
N K p
kjj p
f j u j u k
f j L
p λ λ
p
α λ
α
1
0
( ) ( ) ( ) ( )i
N
i ii
f k F H u k
λλ λ