본문 바로가기

전체 글

(37)
[논문] Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet One-layer transformer에 적용한 sparse autoencoder를 Calude 3 Sonnet에 적용해 높은 질의 feature를 추출하는데에 성공했다.발견된 몇몇 feature들은 안전과 관련이 있다.특히 현대 AI 시스템이 상해를 입힐 수 있는 방법들과 연관되어 있다.미래에 추가 연구를 통해 이런 안전과 관련된 feature들이 함축한 의미를 더 자세히 탐구해야 한다. Key resultsSparse autoencode는 large model에서도 이해 가능한 feature들을 추출할 수 있다.Scaling law를 통해 sparse autoencoder의 학습을 가이드 할 수 있다.추출된 feature들은 매우 추상적이다: multilingual하고 multimodal하며 구체적이..
[논문] Towards Monosemanticity: Decomposing Language Models with Dictionary Learning https://transformer-circuits.pub/2023/monosemantic-features/index.html Towards Monosemanticity: Decomposing Language Models With Dictionary LearningAuthors Trenton Bricken*, Adly Templeton*, Joshua Batson*, Brian Chen*, Adam Jermyn*, Tom Conerly, Nicholas L Turner, Cem Anil, Carson Denison, Amanda Askell, Robert Lasenby, Yifan Wu, Shauna Kravec, Nicholas Schiefer, Tim Maxwell, Nicholas Joseph, A..
[논문] Toy Models of Superposition Neural network들은 많은 연관되지 않은 개념들을 하나의 neuron에 mapping한다. 이 현상은 "polysemanticity"로 알려져 있고 모델의 해석을 매우 어렵게 하는 요소 중 하나이다. 본 논문에서는 이 polysemanticity를 완전히 이해할 수 있는 toy model을 제시한다. 이는 모델이 추가적인 feature들을 "superposition"으로 저장한 결과이다.  모든 figure들과 설명은 아래 논문에서 추출됐다.https://arxiv.org/abs/2209.10652 Toy Models of SuperpositionNeural networks often pack many unrelated concepts into a single neuron - a puzzling..
[논문] From attribution maps to human-understandable explanations through Concept Relevance Propagation XAI 분야는 불투명한 deep learning 모델들에 투명성을 추가하려 노력한다. Local XAI 기법들은 각 prediction을 attribution map을 통해 설명한다. 이는 '어디가' 중요한 feature인지 나타내지만 정보가 '무엇을' 나타내는지 말해주지 못한다. Global explanation 기법들은 모델이 encode 하는 일반적인 개념을 시각화해준다. 두 가지 방법은 모두 부분적인 통찰력을 제공해주고 실제 해석은 유저에게 맡기게 된다.본 논문에서는 local과 global 관점을 통합해 '어디에'와 '무엇을'을 모두 답하는 Concept Relevance Propagation (CRP) 접근 방법을 소개한다.https://www.nature.com/articles/s42256-..
[논문] On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation (LRP) 본 논문에서는 non-linear classifier들의 pixel-wise decomposition로 모델의 분류 의사결정을 이해할 수 있는 해결책을 제시한다.https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0130140  Pixel-wise Decomposition as a General ConceptPixel-wise decomposition의 전체적인 아이디어는 이미지 x의 하나의 pixel이 모델 예측값 f(x)에 얼마나 기여하는지 이해하는 것이다.각 pixel이 분류 결과에 얼마나 positive 또는 negative하게 기여하는지 알아낸다.분류 문제에서 하나의 결정 경계를 찾는 것과 비슷하게 접근할 수 있다.한 가지 방법은..
[선형대수학] Linear Equations in Linear Algebra Linear Algebra and Its Applications by David C. Lay, Steven R. Lay, Judi Mcdonald 인공지능 분야와 양자 컴퓨팅 분야에서도 선형대수학은 필수이다.  1.1 Systems of Linear Equations책에서는 matrix를 linear system(연립 일차 방정식)을 간단히 나타낸 직사각형 모양의 array로 정의한다.즉, $$x_1-2x_2+x=0$$$$2x_2-8x_3=8$$$$5x_1-5x_3=10$$같은 linear system은 coefficient matrix:$$\[\begin{bmatrix}1 & -2 & 1 \\ 0 & 2 & -8 \\ 5 & 0 & -5 \end{bmatrix}\]$$ 또는 augmented matri..
[논문] Explainable Artificial Intelligence (XAI) 2.0: A manifesto of open challenges and interdisciplinary research directions 본 논문에서는 XAI 분야의 발전과 real-world 응용 사례들을 소개한다. 또 XAI 분야에 도전점들과 앞으로의 연구 방향을 제시한다.   1. Introduction최근 AI는 복잡하고 선형적이지 않은 데이터에서 패턴을 추출하는 능력의 real-world 응용을 통해 성공을 거두었다.특히 Macine Learning이나 Deep Learning은 분류, 예측, 추천, 데이터 생성 등 다양한 분야에서 활용된다.특히 healthcare나 finance 분야 AI는 불투명한 output이 어떻게 도출되었는지 설명을 필요로 한다.XAI는 이런 모델들의 불투명한 output을 설명하기 위한 분야로 떠오른다. XAI의 최근 발전에도 불구하고 많은 문제들은 여전히 분석되고 개정되어야 한다.XAI와 trustw..
맥북 더 빠른 한영 전환 맥북에서 빠른 한영 전환을 위해 Karabiner-Elements를 자주 쓴다. Karabiner-Elements simple modification 탭에서 원하는 키를 f19로 맵핑하고 맥북 설정에서 f19 키를 입력전환으로 사용하는 방식을 사용한다. 문제는 이 키를 "누를 때" 한영 전환이 되지 않고 "땔 때" 한영 전환이 된다는 것이다. 한영 전환을 자주 사용하다 보면 상당히 거슬리는 문제이다. 예시로Modeldㅣ다 (Model이다)하는 ㅡodel이 있다 (하는 model이 있다)처럼 빠른 타이핑을 할 때 첫 글자가 전환되기 전 영어나 한글로 나오는 경우가 많다.  따라서 더 빠른 한영 전환을 위해 찾은 방법을 소개한다.이 방법은 키가 때질 때가 아니라 눌릴 때 한영 전환을 시켜준다. 먼저 Kara..