논문/Interpretable AI

[논문] Toy Models of Superposition

guungyul 2025. 3. 27. 14:18

Neural network들은 많은 연관되지 않은 개념들을 하나의 neuron에 mapping한다. 이 현상은 "polysemanticity"로 알려져 있고 모델의 해석을 매우 어렵게 하는 요소 중 하나이다. 본 논문에서는 이 polysemanticity를 완전히 이해할 수 있는 toy model을 제시한다. 이는 모델이 추가적인 feature들을 "superposition"으로 저장한 결과이다.

 

 

모든 figure들과 설명은 아래 논문에서 추출됐다.

https://arxiv.org/abs/2209.10652

 

Toy Models of Superposition

Neural networks often pack many unrelated concepts into a single neuron - a puzzling phenomenon known as 'polysemanticity' which makes interpretability much more challenging. This paper provides a toy model where polysemanticity can be fully understood, ar

arxiv.org

 

 

 


Introduction

Neural nework들의 neuron들이 이해 가능한 feature 하나에 대응된다면 매우 편리할 것이다.

  • 예를 들어 각 neuron이 빨간색, 강아지 코 등 이미지의 특정 feature에만 반응하는 경우이다.
  • 하지만 neuron들은 항상 이런 행동을 보이지 않는다. 왜일까?

본 논문에서는 멀리 떨어진 input feature들을 가지는 합성 데이터로 학습한 작은 ReLU network로 모델이 언제 그리고 어떻게 dimension보다 많은 feature를 나타내는지 조사한다.

  • 우리는 이러한 현상을 "superposition"이라 명명한다.
  • Superposition은 linear model이 할 수 있는 compression을 보다 늘려주고 대신 nonlinear filtering을 필요로하는 "간섭"을 만들게 된다.

5개의 다른 중요도를 가진 feature들을 2D로 embedding하는 toy model을 고려해보자.

  • Dense feature(entry가 0인 feature가 거의 없음)들을 사용하면 가장 중요한 두가지 feature에 대한 orthogonal basis를 표현하도록 학습한다.
  • 하지만 sparse feature(entry가 0인 feature가 많음)들을 사용할수록 이는 아래 그림과 같이 바뀌게 된다

  • 즉, 모델이 약간의 interference을 허용하면서 추가적인 feature들을 저장할 뿐 아니라
  • 가끔 superposition 상태에서도 계산을 하기도 한다

이는 neural network들이 사실은 약간의 오류가 있는 훨씬 더 크고 sparse한 network를 흉내내고 있다는 가설을 세우게 한다.

 

본 논문의 기여점은 다음과 같다.

  • Superposition이 단순히 post-hoc interpretation에 쓰이는 것이 아니라 neural network의 "ground truth"라는 사실을 입증한다.
  • Superposition이 언제, 왜 일어나는지 가설들을 제시하고 superposition의 phase diagram을 보여준다.
  • Toy model을 통해 superposition이 복잡한 기하학 구조를 가진다는 것을 보여준다.

추가적으로 toy model을 통해

  • phase change, 정다면체에 기반한 기하학 구조, 학습 과정에서 "energy level" 같은 jump, fractional quantum Hall effect와 비슷한 현상 등을 조사할 수 있었다.

 

하지만 toy model들이 단순한 ReLU network 구조를 가지기 때문에 다른 큰 network들로 일반화 된다고 하기 어렵다.

 

 

 


Definitions and Motivation: Features, Directions, and Superposition

Emperical Phenomena

"Feature"가 무엇이고 이들이 어떻게 표현되는지를 논의할 때, 관측된 여러 경험적인 현상에 기반하여 이론을 구축한다.

  • Word Embeddings
    • 하나의 semantic 속성에 대응하는 방향이 존재한다
    • V(king) - V(man) + V(woman) = V(queen)
  • Latent Spaces
    • 비슷한 "vector arithmetic"이 generative adversarial networks들에서 관측된다
  • Interpretable Neurons
    • RNNs, CNNs, GANs 모델들에서 특정 속성에만 반응하는 해석 가능한 neuron들을 찾을 수 있다
  • University
    • 같은 속성에 반응하는 비슷한 neuron들이 network 전역적으로 관측된다.
  • Polysemantic Neurons
    • 반대로 전혀 상관 없는 input의 혼합에 반응하는 polysemantic neuron들도 존재한다.

따라서 우리는 neural network의 representation들이 방향으로 표현되는 feature들로 구성되어있다 생각한다.

다음 section들에서 이 아이디어를 더 자세히 탐구한다.

 

 

What are Features?

Feature을 정의하기 위해 세 가지 가능한 정의들을 제시한다.

  • Features as arbitrary functions
    • Feature를 input에 따른 함수로 정의할 수 있다.
    • 하지만 이는 본 논문의 동기와는 거리가 있다.
  • Features as interpretable properties
    • Feature를 사람이 이해 가능한 개념들로 정의할 수 있다.
    • 하지만 이해할 수 없는 개념도 feature가 될 수 있어야 한다.
  • Neurons in Sufficiently Large Models
    • 최종적인 접근법으로 feature를 충분히 큰 모델이 하나의 neuron을 할당해 표현할 input의 속성으로 정의한다.
    • Polysemantic neuron에서 관측되는 이해 가능한 속성들이 충분히 큰 모델에서는 각각 하나의 neuron에 할당될 것이라 기대한다.

 

 

Features as Directions

위 section에서 언급되었듯이 우리는 feature들이 방향으로 표현된다고 생각한다.

 

Feature들이 activation space에서의 방향과 일치하다면 이를 neural network의 representation이 linear하다고 부른다고 하자.

  • 즉, linear representation에서 각 feature $f_i$는 대응하는 방향 $W_i$를 가진다.
    • Linear representation은 간단하게 각 feature들의 방향의 linear combination으로 나타내진 representation이라 생각하면 된다.
    • 명확히 해야될 것은 feature들은 input의 nonlinear 함수로 표현된다. Feature들을 activation vector로 맵핑하는 것이 linear 한 것이다.

Neural network의 대부분은 linear 함수들로 이루어져 있다.

  • 즉, linear representation이 neural network에서 정보를 저장하는 자연스로운 형식인 것이다.

 

여러 layer를 사용하다면 non-linear representation을 구축할 수는 있다.

  • 하지만 우리의 직관은 non-linear representation이 일반적으로 더 효율적이지 못하다는 것이다.

Linear representation을 사용하면 차원 수 만큼의 feature들만 저장할 수 있다고 생각할 수 있다.

  • 하지만 superposition을 통해 더 많은 feature들을 linear하게 표현 가능하다.

 

 

Privileged vs Non-previleged Bases

Feature들이 방향으로 encoded 되어있다면 어떤 방향일까? 또 어떤 경우에는 basis 방향을 고려하는게 도움이 될 때도 있고 아닐 때도 있다. 왜 그럴까?

 

Word embedding의 경우 basis 방향이 의미를 가지지 않는다. 하지만 neural network layer들의 경우 그렇지 않다.

  • Activation 함수를 적용하게 되면 "대칭이 어긋나게"된다.
  • 이는 basis 방향들을 특별하게 만들고 feature들이 basis 차원들과 일치하도록 장려한다.

우리는 basis dimension과 일치하는 basis를 privileaged basis라 부르고 basis 방향들을 "neurons"라 명명한다.

  • 일반적인 경우 이런 neuron들은 해석 가능한 feature들과 대응한다.

 

 

The Superposition Hypothesis

Privileged basis가 존재한다고 해도 neuron들은 보통 "polysemantic"하다.

  • 즉, 다양한 연관되지 않은 featuer들에 대응된다.

이는 superposition hypothesis로 설명될 수 있다.

  • 간단하게 "이미 존재하는 neuron들보다 더 많은 feature들을 나타내고 싶기" 때문에 high-dimensional space의 속성을 이용해 많은 neuron들을 가진 model을 흉내내는 것이다.

 

다음과 같은 수학적 배경이 superposition을 설명할 수 있다.

  • Almost-orthogonal한 vector들
    • N 차원 공간에 N개의 orthogonal한 vector들을 가질 수 있다.
    • 하지만 "거의 orthogonal"한 vector를 사용하면 N 차원에 exp(N)개의 vector를 나타낼 수 있다.
      • Johnson-Lindenstrauss lemma
  • Compressed sensing
    • 일반적으로 vector를 저차원 공간으로 project하면 기존 vector를 복원할 수 없다.
    • 하지만 기존 vector가 sparse하다는 성질을 이용하면 기존 vector를 복원할 수 있다.

 

구체적으로 superposition hypothesis에서는 feature들이 almost-orthogonal한 방향들로 나타내진다.

  • 따라서 하나의 feature가 활성화 될 때 다른 feature들도 함께 약간 활성화 되는 것처럼 보일 수 있다.
    • 이런 "noise"나 "interference"는 network가 견뎌야하는 하나의 cost이다.
  • Neural network가 매우 sparse한 feature들로 이루어져 있다면 더 많은 feature들을 나타내는 이점이 이런 cost보다 커질 수 있다.

 

이를 이해하는 다른 방법은 작은 neural network가 noise와 함께 spare한 더 큰 모델을 "흉내낼" 수 있다는 것이다.

 

 

 

Summary: A Hierarchy of Feature Properties

이 섹션에서의 핵심 아이디어는 neural network representation들이 가지는 네 가지 속성으로 생각될 수 있다.

  • Decomposability
    • Decomposable한 neural network activation들은 feature들로 decompose 될 수 있다.
    • 이때 feature들은 서로 독립적인 의미를 가진다.
  • Linearity
    • Feature들은 방향에 대응된다.
    • 각 feature $f_i$는 방향 $W_i$에 대응한다.
    • 여러 feature가 각각 activate 값 $x_f_1, x_f_2, ...$를 가지고 있다면 이는 $x_f_1W_f_1+x_f_2W_f_2...$로 나타내진다.
  • Superposition vs Non-Superposition
    • $W^TW$가 invertible 하지 않을 때 linear representation은 superposition을 보인다.
    • Invertible하다면 superposition을 가지지 않는다.
      • Invertible -> W vectors가 linearly independent -> 각 input feature가 unique direction을 가질 수 있음
  • Basis-Aligned
    • 모든 $W_i$가 one-hot basis vector들이라면 representation은 basis aligned하다.
    • 만약 모든 $W_i$가 sparse하다면 representation은 부분적으로 basis aligned 하다.
    • 이는 privileaged basis를 필요로 한다. (하나의 기준점을 통해 sparse한지 dense한지 one-hot한지 정의한다)

첫번째 두 속성들은 널리 적용되지만 나머지 두 속성들은 항상 관측되지 않는다.

 

 

 


Demonstrating Superposition

Superposition hypothesis를 검증하기 위해서는 neural network들이 실제로 neuron 수보다 많은 feature들을 나타낼 수 있는지 확인해야 한다.

  • Linear 모델들만으로는 불가능하다.
  • 하지만 작은 nonlinearity를 추가하면 완전히 다른 방식으로 작동하는 것을 알 수 있다.

 

 

Experiment Setup

목표는 neural network가 high dimensional vector $x \in R^n$을 lower dimensional vector $h \in R^m$에 project하고 복원할 수 있는지 탐구하는 것이다.

 

The feature vector (X)

먼저 high-dimensional vector $x$를 묘사한다.

  • 이는 이상적인, disentangled 된 더 큰 모델의 activation들이다.
  • 각 element $x_i$는 "feature"라 부른다.
    • 이는 각 feature가 더 큰 모델의 각 neuron들과 완벽하게 일치한다 가정하기 때문이다.

Feature들에 대한 ground truth가 없기 때문에 $x$를 위한 합성 데이터를 생성해야 한다.

이때 세가지 가정을 따른다.

  • 1) Feature Sparsity
    • 많은 feature들은 가끔 발생하기 때문에 매우 sparse하다.
      • 예를 들어 vision에서 강아지 꼬리나 언어에서 Martin Luther King을 나타내게 되는 경우는 매우 드물다.
    • 따라서 feature들이 sparse한 분포를 가진다 가정한다.
  • 2) More Features than Neurons
    • 모델이 잠재적으로 표현 가능한 feature는 neuron에 비해 훨씬 더 많다.
  • 3) Features Vary in Importance
    • 주어진 작업에서 모든 feature들이 동일하게 중요하지 않다.
      • 예를 들어 강아지 종을 분류하는 작업에서 귀 모양이 다른 feature들에 비해 훨씬 더 중요하다.

 

구체적으로 합성 데이터는 다음과 같이 정의된다.

  • Input vector $x$는 실제 underlying feature를 나타내는 합성 데이터이다.
  • 각 차원 $x_i$는 "feature"라 생각한다.
    • 각 차원은 sparsity $S_i$와 importance $I_i$를 가진다.
    • $S_i$의 확률로 $x_i=0$으로 설정한다. 그 외의 경우 [0, 1] 값으로 균일하게 분포한다.

 

 

The Model (X -> X')

크게 두가지 모델을 고려한다.

  • Linear model
    • Superposition을 보이지 않는 baseline이다.
  • ReLU output model
    • Superposition을 보이는 간단한 모델이다.

 

왜 이런 모델을 쓰는 것일까?

 

Superposition hypothesis는 high-dimensional model의 각 feature가 lower-dimensional space의 하나의 방향에 대응한다고 가정한다.

즉, down projection을 $h=Wx$인 linear map으로 나타낼 수 있음을 뜻한다.

  • 이때 $W_i$의 각 column은 lower-dimensional space에서 feature $x_i$를 나타내는 방향에 대응한다.

기존 vector를 복권하기 위해서 같은 matrix의 transpose인 $W^T$를 사용한다.

  • 이는 수학적 원칙을 따르고 실제로 작동한다.

그 후 bias도 추가한다.

  • 이는 모델이 예상 값으로 표현되지 않는 feature들을 고치도록 도와준다.
  • 또 나중 section에서 탐구되듯이 negative bias는 약간의 noise를 없애도록 도와준다.

마지막 단계는 activation을 추가할지 여부이다.

  • 이는 superposition이 나타나는지를 결정하는 주요한 요소이다.

 

 

The Loss

Loss는 feature importance $I_i$로 가중된 mean squared error이다.

  • $L = \sum_{x} \sum_{i} I_i (x_i - x_i')^2$

 

 

Basic Results

첫번째 실험으로 다른 sparsity level을 가지는 여러 ReLU output 모델들을 학습시키고 그 결과를 시각화한다.

 

가장 간단한 시각화 방법은 $W^TW$와 $b$를 사용하는 것이다.

  • 시각화는 feature의 중요도에 따라 정렬한다
  • 아래는 작은 함수 (n = 20; m = 5;)의 시각화 결과이다.
    • Dimension 수 만큼의 feature를 표현하는 linear model처럼 행동한다.

 

Superposition hypothesis를 검증하기 위해 확인해야 하는 부분은 모델이 정말 추가적인 feature를 almost-orthogonal하게 표현하는 지이다.

  • 먼저 간단한 질문으로 얼마나 많은 feature를 모델이 학습하는지 질문할 수 있다.
    • 이는 embedding vector의 길이 $||W_i||$로 결정된다. (아래 그림에서 x축)

또한 주어진 feature가 다른 feature들과 차원을 공유하는지 확인하고 싶다.

  • 이는 다른 모든 feature들을 vector $W_i$의 방향으로 project한다.
    • $\sum_{j \ne i} (\hat{W}_i \cdot W_j)^2$
    • 다른 feature들과 모두 orthogonal 하다면 0
    • 1보다 큰 값은 다른 feature들이 $W_i$를 feature $i$ 만큼 강하게 활성화한다는 뜻이다. (아래 그림에서 색)

위 모델의 경우 아래 처럼 시각화할 수 있다.

 

적은 수의 feature들 ($n = 20; m = 5; I_i = 0.7^i$)를 가진 모델을 고려해보자.

  • 아래는 서로 다른 feature sparsity level에 따른 시각화 결과이다.

 

결과 분석

  • Linear model은 항상 top-m 가장 중요한 feature만을 학습힌다.
  • ReLU 모델의 경우 dense feature들은 linear model과 비슷하게 동작하지만 sparsity가 증가할수록 superposition이 생기는 것을 볼 수 있다.
    • 즉, 더 많은 feature들을 나타내기 위해서 모델이 feature들을 서로 orthogonal하게 두지 않는다.
    • 가장 중요도가 낮은 feature부터 천천히 가장 중요한 feature까지 적용된다.
    • 처음에는 feature들을 antipodal pair(반대 방향을 가지는 쌍)로 정렬하다가
    • 다른 기하학 구조를 가지게 변화한다.

위 결과는 더 많은 feature과 hidden dimension에도 동일하게 적용된다. ($n = 80; m = 20; I_i = 0.9^i$)

 

 

Mathmatical Understanding

Superposition이 일어나는 이유는 무엇인가? 또 왜 간단한 non-linearity를 추가하는 것 만으로 linear model과 큰 차이를 만드는 걸까?

그 답은 모델이 두 가지 경쟁하는 요소들 - feature benefit과 interference - 로 좌우되기 때문이다

 

Linear neural network의 weight들은 간단한 closed-form solution에 최적화한다 생각할 수 있다.

  • 이를 우리의 linear case로 바꾸어 식으로 나타내면

  • Feature benefit: 모델은 더 많은 feature를 나타냄으로써 더 낮은 loss를 얻을 수 있다.
  • Interference: 하지만 orthogonal하게 나타낼 수 있는 feature들보다 더 많은 feature를 나타냄으로써 feature 간 interference가 증가한다.
    • 이는 linear model이 dimension보다 더 많은 feature들을 나타내는 것을 가치없게 만든다.

ReLU 모델에도 비슷한 이해방식을 적용할 수 있다.

  • 구체적으로 이해하고 싶은 식은 확률 S로 $x_i = 0$이 분포되어있는 $L = \int_{x} |I(x - \text{ReLU}(W^T W x + b))|^2 , dp(x)$ 이다.
    • x로 적분을 하는 것은 sparsity에 기반해 각 term으로 분해할 수 있다. 이는 binomial expansion $((1-S)+S)^n$의 형태를 가진다.
    • 따라서 Loss를 다시 쓰면
      • $L = (1 - S)^n L_n + \cdots + (1 - S) S^{n-1} L_1 + S^n L_0$
        • 각 $L_k$는 input이 k개의 term을 가진 sparse vector일 때의 loss를 뜻한다.
        • S가 1에 가까워질수록 $L_1$과 $L_0$이 주가 된다.
        • $L_0$은 단순히 postive bias의 loss이기 때문에 $L_1$에 집중한다.

위 식은 화학에서 사용되는 Thomson problem과 매우 유사하다.

  • 전자들을 반지름이 1인 구 위에 서로 거리가 가장 멀게 배치하는 방법
  • 특히 고정된 수의 feature들의 $||W_i|| = 1$이고 나머지는 $||W_i|| = 0$을 가진다 가정하면 feature benefit term과 interference eterm은 Thomson problem의 일반화 term과 동일하다.

또 다른 흥미로운 점은 1-sparse case에서 ReLU가 negative interference를 없애준다는 사실이다.

  • 이는 관측된 solution들에서 가능할 때 왜 항상 negative inference만이 존재했는지 설명해준다.
  • 추가적으로 negative bias를 사용하면 positive inference도 negative로 바꿔줄 수 있다.

다른 less sparse vector들은 독자들이 탐구할 주제이다.

  • 핵심 아이디어는 합성된 여러 interferences들이 존재하고 "active feature"들은 interference를 경험한다는 사실이다.
    • 실제로는 아주 적은 feature들만 서로 interfere한다. 때문에 이는 합성되는 interferences의 확률을 낮추고 1-sparse loss term을 보다 중요하게 한다.

 

 

 


Superposition as a Phase Change

위 결과는 모델이 학습될 때 feature들은 세 가지의 결과를 가진다고 제시한다.

  • 1) Feature가 단순히 학습되지 않는다.
  • 2) Feature가 학습되고 superposition으로 나타내진다.
  • 3) Feature가 학습되고 하나의 정해진 차원으로 나타내진다.

위 세 가지 결과 사이 transition은 분명하다. 즉, 그 사이 어떤 형태의 phase change가 존재할 수 있다.

 

물리에서의 "phase diagram" 같은 분명한 경계를 찾기 위해서 각 영향들을 분리한 실험을 진행한다.

  • 초기 실험처럼 2개의 feature과 하나의 hidden layer 차원을 사용한다.
  • ReLU output 모델 $ReLU(W^TWx-b)$를 사용한다.
  • 첫번째 feature의 중요도는 1로 설정한다.
    • 두번째 "extra" feautre의 중요도를 0.1 ~ 10으로 조절하고
    • Sparsity 또한 1 ~ 0.01로 조절한다.
  • 실험을 통해 "extra" feature가 세 가지 결과 중 어느 결과를 가지는지 실험한다.
  • Noise를 줄이기 위해 각 point마다 10개의 모델을 학습하고 가장 높은 loss값을 뺀 값들의 평균 값을 결과로 사용한다.

 

2개의 feature를 1 차원에 저장하는 방법은 세 가지가 있다.

  • 1) $W = [1, 0]$: [0, 1]을 무시한다. 즉, extra feature를 학습하지 않고 첫번째 feature에 차원을 할당해준다.
  • 2) $W = [0, 1]$: [1, 0]을 무시한다. 즉, 첫번째 feature를 학습하지 않고 두번째 feature에 차원을 할당해준다.
  • 3) $W = [1, -1]$: 두 가지 feature를 superposition으로 학습한다. 대신 [1, 1]을 나타낼 수 없다.
    • 이 마지막 3번째 solution을 "antipodal"이라 부른다. 두 basis vector [1, 0], [0, 1]이 서로 다른 방향으로 mapping되어있기 때문이다.

예상했듯이 superposition이 일어나기 위해서는 sparsity를 필요로 한다.

  • 또한 이 phase를 넘어갈 때 weight가 discontinuous하게 바뀐다. (Optimal loss function의 미분 값도 discontinous하다)

 

위와 동일한 방법으로 3개의 feature를 2차원에 embedding하는 방법을 고려할 수 있다.

이론적인 모델로 4가지 방법이 존재한다.

  • 이는 W가 "무시한" feature direction을 통해 할 수 있다.
    • 예를 들어 $W \perp [0, 0, 1]$은 [0, 0, 1]인 마지막 feature를 W가 무시했다는 것을 의미한다.
  • 또 한 가지 흥미로운 점은 모델이 superposition으로 antipodal pair를 만드는 방법이 두 가지 존재한다는 것이다.
    • 예를 들어 $W \perp [1, 1, 0]$는 첫번째와 두번째 feature를 superposition으로 두고 extra feature에 하나의 차원을 배정한다.
    • 또는 $W \perp [0, 1, 1]$처럼 extra feature와 다른 feature 둘 중 하나의 superposition으로 둘 수 있다.
  • 모든 feature들이 superposition으로 있는 $W \perp [0, 1, 1]$의 경우는 고려하지 않는다.

위 다이어그램은 phase change가 정말 존재함을 보여준다. 다음 섹션에서 관측되지 않은 더 복잡한 구조가 존재하는지 탐구한다.

 

 

 


The Geometry of Superposition

위에서 sparsity가 증가할수록 표현되는 extra feature들이 증가한다는 것을 확인했다.

Feature들은 사실 오각형이나 사면체 같은 기하학 구조를 가지게 된다.

이 섹션에서는 먼저

  • uniform superposition을 탐구한다.
    • 모든 feature들이 동일하다: 독립적이고, 똑같은 중요도와 sparsity를 가진다.
    • 그 결과 uniform superposition이 정다면체의 모양을 가지게 된다.
  • 그 후 non-uniform superposition을 탐구한다.
    • 모든 feature들이 동일하지 않다.
    • Uniform superposition의 변형으로 어느 정도 이해할 수 있다.

 

 

Uniform Superposition

Sparsity S의 영향을 탐구하려고 한다.

  • 모든 feature는 중요도 $I_i = 1$을 가진다.
  • n = 400 feature, m = 40 hidden dimension을 사용한다.
    • n이 m보다 충분히 크기만 하면 그 숫자는 크게 중요하지 않다.
    • m이 두배가 되면 학습되는 feature도 2배가 된다.

 

Feature가 학습되었는지 확인하는 간단한 방법은 Frobenius norm $||W||^2_F$를 사용하는 것이다.

  • 1과 유사하거나 같은 값은 학습됨, 0과 비슷하거나 같은 값은 학습되지 않음을 뜻한다.

아래 그래프는 "dimension per feature"인 $D^* = m / ||W||^2_F$를 나타낸다.

 

놀랍게도 그래프가 1과 1/2 근처에서 "sticky"하다는 것을 발견했다.

  • 이는 antipodal pairs가 되는 정확한 기하학 배치와 1/2 "skicky point"가 대응하는 것처럼 보인다.
    • 즉, antipodal pairs가 효과적이기 때문에 모델이 더 많은 sparsity regime에서 사용하는 것으로 추측할 수 있다.

 

Feature Dimensionality

하나의 feature가 가지는 "fraction of dimensionality"를 표현할 방법이 있을까?

i 번째 feature의 dimensionality는 다음과 같이 정의한다.

  • $D_i = \dfrac{|W_i|^2}{\sum\limits_{j} (\hat{W}_i \cdot W_j)^2}$
    • $W_i$는 i 번째 feature와 연관된 weight vector
    • $\hat{W}_i$는 위 vector의 unit vector
  • 분자는 주어진 feature가 표현된 정도, 분모는 얼마나 많은 feature들이 dimension을 공유하는지를 나타낸다.
  • 이론적으로 "packed efficiently"라면 모든 feature들의 dimensionality 합은 embedding dimension의 수가 될 것이라 유추할 수 있다.

이제 위 그래프를 per-feature basis로 분리해 나타낸다.

  • 위 섹션의 line plot으로부터 시작한다
  • 각 feature의 feature dimensionality를 나타내는 scatter plot을 추가한다.
  • 이러한 feature dimensionality가 cluster하는 부분에 선을 추가한다.
  • 몇몇 모델의 weight geometry들을 "feature geometry graph"로 시각화한다.
    • Node는 feature를, edge weight는 feature embedding vector들의 dot product의 절대값이다. 즉, orthogonal하지 않다면 연결되어 있다.

 

이전 section에서는 superposition을 phase change로 보는 이론을 발전시켰다.

하지만 위 그래프에서 나타나듯이 0과 1 사이 모든 결과는 superposition이다.

  • 즉, superposition 안에서도 여러 서로 다른 phase들을 가진다는 것을 의미한다.

 

Why These Geometric Structures?

많은 구조들은 Thomson problem의 solution들이다.

  • 즉, 모델이 feature를 표현할 때 feature는 m-dimensional sphere 위의 점으로 embed된다.

 

또한 uniform polyhedra인 (ex. tetrahedron) 경우 하나의 선만 존재하지만 non-uniform solution의 경우 두개의 line이 공존한다 (ex. 2/3과 1/2).

  • Uniform의 경우 모든 꼭짓점이 같은 기하학적 특징을 가지고 같은 dimensionality를 공유한다.
  • Non-uniform의 경우 다른 feature들이 서로 더 또는 덜 interfere 한다. (다른 dimensionality를 가진다)

특히, Thomson solution들은 더 작은 uniform polytopes들의 tegum product로 이해될 수 있다.

  • 즉, non-uniform solution의 경우 우리는 실제 dimensionality가 underlying factor uniform polytopes에 대응한다 생각해야 한다.

 

또한 위 설명은 우리가 high dimensional version을 연구하는데 왜 3D Thomson problem solution을 관측할 수 있는지 설명한다.

  • 3D Thomson solution이 2D와 1D의 tegum product인것처럼 몇몇 higher dimensional solution들은 1D, 2D, 3D tegum product로 나타내질 수 있다.

또한 tengum products의 orthogonality는 또 하나의 사실을 말해준다.

  • Superposition 관점에서 tengum-factor들 사이에는 "interference"가 존재할 수 없음을 의미한다.

 

 

Non-Uniform Superposition

위 섹션에서는 모든 feature들이 같은 중요도, sparsity, 독립적인 uniform superposition을 탐구했다. 그리고 이 모델은 Thomson problem의 변형을 해결하려 한다.

이 섹션에서는 non-uniform superposition을 연구한다. Feature들은 중요도와 sparsity가 다르고 서로 의존적일 수 있다.

 

실제 neural network들은 이런 non-uniform한 superposition을 보인다. 하지만 아직 이런 non-uniform geometry를 어우르는 이론을 형성하는 것과 거리가 있다.

따라서 몇가지 중요한 현상들만 제시한다.

  • Feature의 중요도와 sparsity가 변화하면 polytope에 부드러운 deformation이 생기다가 특정 지점을 기점으로 다른 polytope로 변화한다.
  • Correlated feature들은 다른 tegum factor로 형성되며 서로 orthogonal한 것을 선호한다.
    • 그 결과로 corrleated feature들은 orthogonal local basis를 형성한다.
    • Orthogonal 할 수 없다면 side-by-side를 선호한다.
    • 또는 correlated feature들이 하나로 통합되는 경우도 있다.
  • Anti-correlated feature들은 같은 tegum factor에 있는 것을 선호한다.
    • Negative interference를 선호하고 이상적으로는 antipodal하다.

 

Perturbing a Single Feature

가장 간단한 non-uniform superposition은 하나의 feature를 변경하고 나머지는 uniform하게 두는 것이다.

  • n = 5 features, m = 2 차원인 실험을 진행한다.
  • 중요도는 1, activation density 1 - S = 0.05로 정오각형 모양을 가진다.

하나의 점의 sparsity를

  • Dense하게 하면 다른 feature들이 point로부터 밀려난다.
  • Sparse하게 하면 다른 점들이 그 point로 당겨진다.
    • 너무 sparse하게 만들면 sparse한 점을 중심으로 하는 digons로 변경된다.
      • 아래 그래프에서 각 geomtery에 대응하는 loss function이 교차하는 지점을 뜻한다.

위 실험의 결과 non-uniform superposition은 uniform superposition 구조의 deformation이나 조합으로 이루어지고 전혀 다른 구조가 아님을 보여준다.

Pentogonal solution이 원 위에 있지 않는 이유는 positive interference를 줄이기 위해서이다.

  • Negative bias를 이용해 noise를 줄이고
  • Weight를 $||W_i|| = 1/(1-b_i)$를 사용해 이를 보상한다.
  • 즉, 원으로부터의 거리는 positive infernece의 크기라고 이해할 수 있다.

또한 sub-optimal한 solution들을 시각화해 loss curve와 다른 geometries가 어떻게 연관되어있는지 영감을 얻을 수 있다.

 

 

Correlated and Anticorrelated Features

모델이 correlated 된 feature들을 나타낼 때 선호하는 순서가 있는 것 처럼 동작한다.

  • 이상적으로는 correlated feature들은 orthogonal하게 표현된다.
  • 그럴 수 없을 때 두 feature는 가능한 가장 가까이 배치된다.
    • negative interference보다 positive interference를 선호한다.
  • 모든 feature를 나타낼 공간이 없을 때는 두 feature들이 collapse하고 그 주 성분으로 나타내진다.

반대로 anti-correlated되어 있는 feature들의 경우 모델은 negative interference를 선호한다.

 

Setup for Exploring Correlated and Anticorrelated Features

Correlated Feature Sets

  • Correalted feature set에 있는 feature들의 entry가 동시에 0이 되거나 0이 아니게 설정

Anticorrelated Feature Sets

  • 하나의 feature set이 0이면 다른 feature set은 [0, 1] 값을, vice versa

 

Organization of Correlated and Anticorrelated Features

먼저 m = 2인 겨우로 실험을 해 weight들을 2D 공간의 점으로 시각화한다.

 

Local Almost-Orthogonal Bases

Correlated된 feature들을 orthogonal하게 배치하려는 특성이 생각보다 강하다는 것을 발견했다.

  • 큰 모델에서도 모델 전체가 superposition을 가지고 있어도 correlated feature들은 거의 orthgonal하게 배치되고 적은 interference를 가진다.

위 결과가 실제 neural network에도 적용된다면 "local non-superposition" 가정을 만들 수도 있다.

  • 분포의 일부분은 superposition이 아니라고 가정할 수 있다.
  • 이는 superposition이 존재할 때 잘 사용되지 않는 PCA 기법을 사용하 근거를 제공할 수 있다.

 

Collapsing of Correlated Features

흥미로운 점은 모델이 Principal Components Analysis (PCA)와 superposition에 trade off를 가지는 것 같다는 사실이다.

  • 두 개의 correlated feature들 a와 b가 있는데 모델이 하나의 feature 만 표현할 수 있다면 모델은 principal component인 $\frac{(a + b)}{\sqrt{2}}$ 만 나타내고 $\frac{(a - b)}{\sqrt{2}}$는 무시한다.

 

Feature들이 더 correlated 될수록 PCA가 더 좋은 방법이 된다.

반대로 feature들이 더 sparse 해질수록 superposition이 더 좋은 방법이 된다.

 

 

 


Superposition and Learning Dynamics

모델의 learning dynamics을 공부하는 것이 흥미로운 여러 이유가 있다.

본 논문에서는 학습 과정에서 발견한 놀라운 현상들을 정리하고 자세한 연구는 미래 연구 주제로 제시한다.

 

Phenomenon 1: Discrete "Energy Level" Jumps

많은 수의 feature들을 사용한 learning dynamic에서 "energy level jump"가 지배적이다.

  • feature들이 다른 feature dimensionality들 사이를 jump한다.

이전 섹션에서 uniform superposition의 geometry를 조사할 때 사용한 모델 중 모든 feature가 digons로 수렴한 모델을 선택해 확인해보자.

  • 각 선은 하나의 feature의 dimensionality를 뜻한다.

흥미로운 점은 몇몇 feature들의 dimensionality는 다른 값들 사이를 "jump"하며 값을 바꾼다는 것이다.

  • 이때 loss 값은 큰 감소를 보인다.

이는 더 큰 모델들에서 부드러운 loss 함수가 사실은 아주 많은 작은 step들로 이루어져 있을 수 있다는 것을 시전한다.

 

Phenomenon 2: Learning as Geometric Transformatinos

특정 기하학 구조를 가지게 되는 learning dynamic은 사실 간단하고 독립적인 기하학 transformation들로 이루어져있다.

  • n = 6, m = 3인 모델에서 3개의 feature 씩 하나의 correlation set으로 구성한다.
  • Loss curve로 알 수 있듯이 학습은 별개의 영역에 대응하는 기하학 transformation로 진행된다.

 

 

 


Superposition in a Privileged Basis

이제까지는 privileged basis가 없는 모델들을 살펴봤다. (word embedding, transformer residual stream 등)

이 섹션에서는 privileged basis인 neuron이 존재하는 경우를 탐구한다. (transformer MLP layer, conv net neuron 등)

 

Privileged basis가 존재하는 toy 모델을 만드는 방법은 두 가지가 있다.

  • hidden layer에 activation function을 추가하거나
  • hidden layer에 L1 regularization을 적용할 수 있다.

본 논문에서는 activation을 추가하는 방법을 탐구한다.

 

아래 식을 "ReLU hidden layer" 모델로 명명한다.

$h = ReLU(Wx)$

$x' = ReLU(W^Th + b)$

 

ReLU를 추가하면 모델을 interpretability 관점에서 완전히 변형시킨다.

  • 아래 그림은 linear hidden layer 모델과 ReLU hidden layer model을 비교한다.

  • 기존에는 input을 features로, middle layer를 neuron으로 생각했다. 따라서 W는 feature들을 neuron들로 mapping한다.
  • 위 그림에서 볼 수 있는 것은 feature들이 neuron들과 구조적인 형태로 정렬된다는 것이다.
    • 즉 거의 모든 neuron들이 하나의 feature를 전담하여 나타낸다.

 

Visualizing Superposition in Terms of Neurons

모델을 시각화하는 또 다른 방법인 per-neuron stacked bar plot을 제시한다.

  • 각 column은 W의 하나의 column을 시각화한다.
  • 각 직사각형은 하나의 weight entry를 나타내고 높이는 그 절대값에 대응한다.
  • 색깔은 나타내는 feature에 대응한다.
  • 음수는 x-axis 아래로 나타내진다.
  • Rectangle의 순서는 중요하지 않다.

 

이제 ReLU hidden layer toy 모델을 시각화한다.

  • n = 10, m = 5, $I^i = 0.75^i$, 그리고 sparsity를 조절한다.
  • Neuron의 색은 monosemantic 또는 polysemantic에 따라 정해진다.

 

중요한 점은 sparsity가 증가할 수록 monosemantic에서 polysemantic으로 바뀐다는 점이다.

  • 하나의 모델에서 monosemantic과 polysemantic neuron이 공존할 수 있다.
  • 또한 neuron-level phase change가 존재하는 것처럼 보인다.

 

Limitations of the ReLU Hidden Layer Toy Model Simulating Identity

이 섹션에서 제시된 toy model은 모델의 적용 범위를 제한시키는 약점이 있다.

  • ReLU hidden layer로부터 모델이 혜택을 받지 않는다.
  • 만약 기회가 있다면 모델은 layer를 사용하지 않으려 한다.
    • 예를 들어 biasa를 모두 양수 값으로 설정해 선형적으로 작동하게 한다.

 

 

 


Computation in Superposition

우리는 모델이 superposition 상태에서의 계산을 할 수 있다 생각한다.

이를 탐구하기 위해서 input과 output은 가상의 disentangled 모델, hidden layer는 관측되는 모델로 설정한다.

더 자세히 우리는 모델이 $y=abs(x)$를 계산하도록 한다.

  • 이는 ReLU를 통해 간단하게 계산할 수 있기 때문이다
  • $abs(x) = ReLU(x) + ReLU(-x)$

 

 

Experiment Setup

위 설정과는 다르게 input feature vector x의 $x_i$가 [-1, 1]에서 샘플되도록 한다. Target output은 $y = abs(x)$로 정한다.

 

이전 섹션과 동일하게 ReLU hidden layer를 사용하지만 더 이상 weight 2개를 동일하게 사용하지 않는다.

  • $h = ReLU(W_1x)$
  • $y' = ReLU(W_2h+b)$
  • Loss는 이전과 동일하게 중요도 $I_i$를 가중치로 사용한 mean squared error이다.

 

 

Basic Results

두 개의 Weight $W_1$과 $W_2$가 독립적으로 학습되기 때문에 단순히 $W_2^TW_1$을 연구할 수 없다.

이전 section에서 확인했듯이 hidden layer activation function을 추가하면 weight를 neuron으로 직접적으로 시각화 할 수 있다.

 

먼저 n = 3 features가 m = 6 hidden layer 뉴론들로 절대값을 계산하도록 한다.

그 결과 예상했듯이 각 input feature $x_i$에 대해 양수 $ReLU(x_i)$ neuron과 음수 $ReLU(-x_i)$ neuron을 가지게 하고 그 합으로 절대값을 구한다.

 

 

Superposition vs Sparsity

그럼 모델이 superposition을 사용해 더 많은 feature의 절대값도 구할 수 있을까?

  • n = 100, m = 40, $I_i = 0.8^i$과 sparsity를 조절하며 실험한다.
    • 시각화에서 W의 절대값을 사용한다.
    • Neuron 색은 얼마나 polysemantic한지를 알려준다.

위 그래프는 다음과 같은 사실들을 보여준다.

  • Activation function이 privileged basis를 생성하고 feature들이 basis차원에 정렬되도록 한다.
  • Superposition으로 나타내진 데이터에도 계산을 할 수 있다는 것을 보여준다.
  • 많은 neuron들이 pure feature를 encode하지만 일부는 매우 polysemantic하다.
  • 또한 몇몇 neuron들은 큰 weight로 encode된 하나의 "primary" feature과 작은 weight 크기로 encode된 여러 개의 "secondary" feature을 동시에 가진다는 것을 보여준다.

 

 

The Asymmetric Superposition Motif

이런 superposition에서의 계산은 어떻게 가능한가?

이 섹션에서는 weight를 이용해 이를 설명한다. 또 asymmetric superposition을 설명한다.

 

이 두 neuron들은 asymmetric superposition과 inhibition을 구현한다.

 

일반적인 superposition에서는 같은 weight로 feature들을 저장한다.

하지만 asymmetric superposition에서는 feature들을 다른 크기로 저장한다.

  • input: W = [2, -1/2], output: W = [1/2, 2]
  • 이는 하나의 feature가 다른 feature와 크게 interfere하게 하지만 다른 feature는 interfere를 경험하지 않게 해준다.

이런 interference를 피하기 위해서 모델은 positive interference가 있는 경우를 다른 neuron으로 억제한다.

  • Positive interference를 negativei interference로 바꿔 ReLU에 의해 없어지게 한다.

 

 

 


The Strategic Picture of Superposition

Safety, Interpretability, & "Solving Superposition"

"Solving superposition"은 다른 많은 interpretability properties와 연과되어 있다.

  • Decomposing Activation Space
    • Activation space를 독립적으로 이해 가능한 요소들로 나눈다.
  • Describing Activations in Terms of Pure Features
    • 하나의 activation을 여러 요소들로 나누어 설명할 수 있다.
  • Understanding Weights
    • Weight를 이해하기 위해서는 이해할 수 있는 feature들과 연결되어 있어야 한다.

 

 

Three Ways Out

세 가지 superposition을 해결할 방법들을 제시한다.

  • Superposition이 없는 모델 만들기
  • Overcomplete basis 찾기
  • Hybrid approaches

 

Approach 1: Creating Models without Superposition

가장 간단한 방법은 L1 regularization term을 hidden layer activation에 추가하는 것이다.

  • 이는 중요하지 않은 neuron들을 나타내지 않음으로 이해 가능하고 basis aligned된 feature들을 생성한다.
  • 하지만 loss가 증가하게 된다.

또 하나의 방법은 더 큰 모델을 사용하는 것이다. 하지만 이는 높은 계산 비용을 야기한다.

  • 이때 우리는 Mixture of Experts (MoE) 모델에서 영감을 받을 수 있다.

 

Approach 2: Finding an Overcomplete Basis

또 다른 방법은 일단 superposition이 있는 모델을 학습하고 각 feature에 대응하는 overcomplete basis를 찾는 것이다.

  • 이는 기존 sparse coding (dictionary learning) 문제와 연관되어 있다.

이 방법의 challenge들은 다음과 같다.

  • Feature 수를 알 수 없다.
  • Solution은 실제 surface computational structure가 아닌 virtual structure를 가지게 된다.
  • 이미 큰 모델들을 sparse coding으로 접근하면 문제의 크기가 너무 커진다.
  • Superposition에 의한 interference는 모델이 학습 과정에서 더 적은 superposition을 가지게 하고 이를 decode하기 어렵다.

 

Approach 3: Hybrid Approaches

Hyprid approaches

  • Superposition이 적은 모델을 만들면 더 쉽게 decode 할 수 있다.
  • 반대로 구조를 조정해 overcomplete basis를 더 쉽게 찾거나 계산량을 줄일 수 있다.