[논문] Explainable Artificial Intelligence (XAI) 2.0: A manifesto of open challenges and interdisciplinary research directions
본 논문에서는 XAI 분야의 발전과 real-world 응용 사례들을 소개한다. 또 XAI 분야에 도전점들과 앞으로의 연구 방향을 제시한다.
1. Introduction
최근 AI는 복잡하고 선형적이지 않은 데이터에서 패턴을 추출하는 능력의 real-world 응용을 통해 성공을 거두었다.
특히 Macine Learning이나 Deep Learning은 분류, 예측, 추천, 데이터 생성 등 다양한 분야에서 활용된다.
특히 healthcare나 finance 분야 AI는 불투명한 output이 어떻게 도출되었는지 설명을 필요로 한다.
XAI는 이런 모델들의 불투명한 output을 설명하기 위한 분야로 떠오른다.
XAI의 최근 발전에도 불구하고 많은 문제들은 여전히 분석되고 개정되어야 한다.
- XAI와 trustworthy AI 요구사항의 연결점이 명확하지 않다
- 최근 explainability와 trustworthiness를 연관짓는 연구 진행
- Explainability와 robustness를 연관짓는 연구 진행
- XAI와 연관된 잘못된 상식이나 단점 토의 필요
XAI 분야 연구가 성숙되면서 이제까지 연구된 path와 논리들을 비판적으로 돌아보기 시작했다.
- Computer science 외 연구분야의 연구 규율들을 통합하지 못한다.
- Explainability와 transparency 사이 관계를 토론한다.
- 모델 설명이 그 청중의 이해에 맞춰서 제공되어야 한다 (개발자, 디자이너, 평범한 유저)
- 크게 3가지 단계의 transparency로 분석된다 (algorithmic, interactive, social)
- 설명의 효용성을 검증하는 실험적인 연구가 너무 적다.
- XAI는 보통 포괄적이고 충식한 설명을 제시하는 것 보다 이해 가능성(comprehensibility)을 중요시한다.
- 따라서 실제 AI 시스템이 예측을 하는 방법과 설명이 일치하지 않을 수 있다
XAI의 미래 발전 방향에 대해 global vision과 토의를 필요로 한다.
다양한 연구 분야에서의 전문가들이 새로운 XAI연구의 파라다임을 제시하는데에 필요하다.
본 논문은 XAI 분야에서 연구하는 학자들의 연구 아젠다를 일치시키는데 집중한다.
또 XAI 분야가 해결해야하는 문제와 연구들을 정의한다.
- 다양한 분야의 전문가들 (철학, 심리학, HCI, 컴퓨터공학) 토의 결과 총 28개의 문제점들을 제시한다.
2. Concepts, advances and applications of XAI research
2.1 Basic definitions and exsiting reviews on XAI
XAI 분야에서는 불행히도 사용되는 단어들에 의미가 통일되어있지 않다.
본 논문에서 사용되는 단어들의 의미를 통일시키기 위해서 몇몇 기본 단어들을 정의한다.
XAI의 explainability의 목적은 시스템의 일부를 사람이 이해할 수 있게 바꾸는 것이다.
Explainability란
- 모델의 예측값 하나가 될 수도 있고 (local explainability)
- 모델 전체가 될 수도 있다 (global explainability)
Explainable 모델은
- Explainable 모델을 직접적으로 훈련 (ante-hoc explainability) 과
- 가끔 (intrinsic) interpretability나 transparent model design이라 불린다
- 학습된 모델을 간접적으로 설명 (post-hoc explainability)로 나뉜다
- Post-hoc explainability 기법은 두가지로 나뉜다
- Model-agonostic explainability 기법: 모델과 독립적으로 작동
- Model-agonostic explainability 기법: 특정 모델이나 모델 분류에만 작동
- Post-hoc explainability 기법은 두가지로 나뉜다
2.2 XAI trends, advances, and breakthroughs
AI 시스템의 설명성은 많은 기술적 문제와 사회 문제를 해결할 가능성을 보여준다.
- 데이터로부터 어떻게 학습이 진행되는지 이해
- 모델 성능을 어떻게 향상 시킬 수 있는지 제시
- 모델의 결과값을 신뢰하도록 도움
- 숨겨진 편견을 보여주고 일반화를 도움
- 데이터 streaming 과정에서 모델이 관측하는 것을 특성
- 잘못 annotate 된 데이터를 explainability와의 차이로 분별
- 필요 없는 neuron을 삭제해 모델 압축
2.2.1 Attirbution methods
Attribution 기법으로 분류기의 결정을 설명하는 기법이 많이 존재한다.
- Local Interpretable Model-Agonostic Explanations (LIME), Shapley Additive Explanation (SHAP)
Saliency map (주요 부분을 하이라이트한 이미지)는 분류나 회귀 작업에서 결정과 연관된 input을 특정하는데 사용된다.
- 이 saliency map은 network gradients, Deconvolutional neural Networks, Layer-Wise Relevance Propagation, Pattern Attribution, Randomized Input Sampling for Explanation 등의 기법으로 만들어진다.
특히 이미지나 문자 분야에서는 이런 attribution 설명이 직관적이고 이해하기 쉽다.
하지만 다른 분야들에서는 이런 attribution 설명이 상당히 이해하기 어렵다.
- 예시로 여러 변수가 사용된 time series나 복잡한 생물학적 sequence의 attribution map은 사람이 이해하기 어렵다.
- 또한 이미지 분야에서도 정보 attribution map의 정보 해석은 여전히 사람에게 달려있다.
- Young adult로 분류된 이미지에서 사람의 치아 부분이 하이라이트 되어 있다면 이 하이라이트가 사람이 웃고 있는지를 나타내는데에 필수적인 조건인지 알 수 없다.
2.2.2 Ante-hoc explainable models
정보가 테이블로 제공되는 금융 분야에서는 전통적인 ML 기법이 보통 사용된다.
- 특히 자주 사용되는 Decision Trees (DTs)는 ante-hoc explainable 모델이다.
따라서 최근 XAI 분야의 한 분야는 rule-based 접근법과 rule extraction 기법들을 연구한다.
- Symbolic rule을 사용해 지식을 얻는 방법은 여전히 많이 쓰이는 방법이다.
- 하지만 이는 적은 적용범위 때문에 ante-hoc explainability에 자주 사용되지 않는다.
- Rule extraction에 기반한 기법들은 주로 'black box' 모델을 먼저 학습시키고 이에 기반하여 'white box' 모델을 만든다.
- 하지만 DT의 복잡성을 제한시키면서도 rule extraction으로 높은 정확도를 얻는 것은 여전히 연구되는 문제이다.
이러한 제한점들에도 불구하고 black-box 모델보다 ante-hoc explainable 모델 사용은 항상 권해진다.
- 시계열 데이터 예측이나 이미지 분석에서도 data enginerring 처리를 통해 DT나 rule-based 모델 사용이 가능하다.
2.2.3 New kinds of approaches
최근 새로운 접근법들은 이전 접근법들의 문제를 해결할 잠재성을 보여준다.
- Attention-based 설명을 neural 구조에 통합하여 테이블 데이터의 효율적인 계산과 이해 가능성을 증진시키는 연구가 존재한다.
- 결과는 좋지만 transformer 구조가 사용되면 내부 가변성에 크게 의존하게 된다.
- 이런 관점으로 attention 기법은 존재하는 다양한 기법들과 함께 사용될 수 있다.
- attention flow and rollout, LRP adaptation, attention memory
- 이런 기법들은 모델의 설명가능성을 강화시키지만 stability, robustness, fidelity를 고려한 설명 특성들은 더 연구되어야 한다.
- 또 다른 trend는 argumentation을 사용한 설명 가능성이다.
- Computational argumentation은 합리적인 결정에 이르는 모든 과정을 설명하는데 도움을 준다.
- Rule: argument
- Rule들의 interaction: argumentation semantic으로 해결될 수 있는 conflict
- 특히 computational argumentation은 새로운 증거로 결론이 철회될 수 있는 non-monotonic reasoning을 구현한다.
- 이는 사람의 reasoning과 비슷하게 동작한다.
- Computational argumentation은 합리적인 결정에 이르는 모든 과정을 설명하는데 도움을 준다.
2.3 Applications of XAI methods
2.3.1 Medicine, health-care, and bioinformatics
병원에서 환자의 질병을 진단하기 위해 AI를 사용하게 된다.
- 이때 잘못된 진단은 환자에게 큰 영향을 줄 수 있기 때문에 explainability에 기반한 trust, reliance를 중요시한다.
- AI 기반 시스템이 인간 전문가보다도 더 좋은 진단을 내린다는 연구도 존재한다.
따라서 모델의 설명 가능성은 medical, legal, ethical societal 문제로 고려된다.
2.3.2 Finance
금융 분야에서는 AI를 이용해 정보 처리 과정을 자동화시키고 비용을 절감하고 서비스 보안을 강화한다.
- 이 분야에서의 AI 활용은 법적인 이유로 투명성과 설명 가능성을 필요로 한다.
- 예를 들어 한 고객의 대출 신청이 거부되었을 때 은행은 명확하고 이해 가능한 설명을 내놓아야 한다.
- 또는 극적인 market condition이나 unexpected event에도 robust하고 stable한 AI 모델을 필요로 한다.
2.3.3 Environmental science and agriculture
농업과 숲 생태계를 모델링, 분석, 관리하는데에 XAI는 중요한 역할을 한다.
- 예를 들어 forest carbon stock을 ML 기법으로 예측할 수 있다.
- 하지만 모아지는 데이터는 보통 낮은 품질을 가지고 있고 모델 robustness 부족으로 이어진다.
- 약간의 perturbation이 완전히 다른 출력을 만들 수 있다.
- 따라서 모델의 romustness를 분석하고 결과를 향상시키기 위해 explainability가 사용될 수 있다.
2.3.4 Education
AI in Education (AIED)는 AI를 사용해 학생, 교육자, 교육 기관들을 돕고자 한다.
- 학생을 위해서는 개인 맞춤형 학습 자료를 제공할 수 있다.
- 스스로의 meta-cognition과 self-monitoring, reflection, planning을 향상시키는데 도움을 준다.
- 교육자를 위해서 AIED는 교육 도우미로서 교실을 조율하고 과제를 채점하고 학생과 문답한다.
- LLM을 이용해 교육용 content를 생성할 수도 있다.
- 하지만 학생들이나 교육자가 AI 기반 기술들의 통제를 잃고 어떻게 또는 왜 특정한 결과를 생성하는지 이해하지 못할 수 있다.
- 특히 개인 맞춤형 추천 시스템들은 fairness, accountability, explainability 측면에서 민감한 부분이다.
- 부족한 explainability나 feedback은 특정 학습 자료를 사용해 얻을 수 있는 이점과 현재 학습 상태를 이해하는데에 어려움을 줄 수 있다.
3. Challenges and research directions
XAI 발전에도 불구하고 여전히 많은 문제들을 해결하기 위한 연구가 필요하다.
- 예를 들어 XAI 기법이 어떻게 평가되어야 하는지, XAI가 trustworthiness와 어떻게 연관되어 있는지 명확하지 않다.
본 논문에서는 28개의 문제를 9개의 분류로 묶어 제시한다.
3.1 Creating explanations for new types of AI
3.1.1 Creating explanations for generative and large language models
생성형 AI 모델 (diffusion denoising / GPT)은 많은 분야에 큰 영향을 미쳤다.
이때 많은 parameter 수는 기존 XAI 기법들을 적용하는데 큰 걸림돌이 된다.
- 특히 생성형 모델들의 high-dimensional 특성에 어려움을 겪는다
- Computational complexity와 학습된 개념을 추출하기 어렵다
- 후자의 경우 하나의 neuron이 여러 의미를 동시에 내포하기 때문이다 (polysemantic nature)
- Computational complexity와 학습된 개념을 추출하기 어렵다
- XAI 기법들은 간단한 분류나 회귀 문제들로 제한된다.
따라서 완전히 새로운 접근법들이 발전되어야 한다.
- Variational Autoencoders (VAEs) / Generative Adversarial Networks (GANs)
- 학습된 latent space를 해석하고 설명을 생성하는 것은 매우 어렵다
- LLMs
- Scaling law
- 네트워크의 변수와 관련된 함수 관계
- 예시로 더 많은 layer를 쓸수록 더 높은 정확도를 얻을 수 있음
- LLM의 성능에 크게 기여하는 법칙이지만 이런 관계를 개별적인 task-level로 정확히 이해하기 어려움
- 네트워크의 변수와 관련된 함수 관계
- Scaling law
Solution ideas
Mechanistic interpretability는 생성형 모델들의 작동법과 scaling law를 이해하는데 영감을 제공한다.
- 핵심 아이디어는 neural network를 reverse-engineer해 실제 모델이 하는 일을 이해하는 것이다.
- 예를 들어 neural network weight들의 의미있는 알고리즘을 찾는 것이다.
- 이로 얻은 영감으로
- grokking mechanics (일반화 과정에서 갑작스로운 spike)이나
- 문제를 제귀적으로 푸는 능력을 이해할 수 있다.
많은 연구 기관에서 mechanistic interpretability 접근법을 사용해 학습된 representation이나 학습된 모델의 algorithm을 causality-based 기법들로 reverse-engineer 한다.
- Piecewise linear activation function
- Activation space를 polytope-shaped monosemantic region으로 나누는데 사용
- Sparse autoencoder
- DNN 모델들의 mono-semanticity에 사용
Mechanistic interpretability에도 많은 도전점들이 존재한다.
- 여러 알고리즘 구현들을 disentangle
- 알려지지 않은 알고리즘 발견
- Mechanistic interpretability를 위한 모델 설계 필요
- LLM의 high-dimensional space들을 분석하는데 도움이 되는 information geometry를 mechanistic interpretability를 보완하는데 쓸 수 있다.
추가적으로 LLM들의 안전성과 설명가능성을 위해 모델 학습과 동작에 제약을 추가하는 방법도 존재한다.
- 예시로 학습 과정에서 L1 정규화를 통해 neuron들의 non-local 연결점을 방해함으로써 modularity와 ante-hoc explainability를 장려하는 기법이 있다.
또 이런 기법들이 연관된 모델에 크기, 문제 크기, 복잡도에 상관 없이 작동하는지는 아직 탐구되지 않은 분야이다.
3.1.2 Creating explanations for distributed and collaborative learning
최근 많은 관심을 받는 분야는 분산 협력 학습이다 (distributed and collaborative learning).
- 분산 학습 알고리즘은 여러 계산 노드가 협력하여 ML 문제를 해결한다.
- Distributed learning
- Local 데이터셋을 학습하고 주기적으로 정보를 다른 노드와 공유
- Collaborative learning
- Distributed learning 보다 더 넓은 개념으로 공통된 학습 목표를 위해 여러 본체가 함께 협력하고 지식과 자원을 공유
- Distributed learning
하지만 XAI 기법을 민감한 데이터를 사용하지 않고 디자인 하는 것은 어렵다.
- 모델이 반복적으로 비동기적으로 업데이트 되기 때문에 각 노드의 기여도를 이해하고 추적하기 어렵다.
- 각 노드가 다른 데이터셋과 모델 구조를 가질 수 있고 노드가 많아질수록 모델이 복잡해진다.
Solution ideas
분산과 협력 아이디어를 그대로 사용할 수 있다.
- 각 local 노드에서 global 모델에 업데이트하는 내용을 기반으로 해석을 생성
- 이런 local 해석들을 민감한 데이터 없이 모아 global 모델 행동을 분석
또 다른 아이디어는 Multi-Party Computation (MPC)를 이용하는 것이다.
- 직접적으로 민감한 데이터를 공유하지 않으면서 explanation들의 협력 계산이 가능
- 이는 단 하나의 node도 전체 정보에 접근할 수 없게 함
다른 해결책으로 explanation을 생성할 때 민감한 정보를 드러내지 않는 differential privacy mechanism들을 구현할 수 있다.
- Explanation을 얻는데 사용된 perturbation을 제한시켜 개인 정보를 보호
3.2 Imporving current XAI methods
3.2.1 Augmenting and imporving attribution methods
Computer vision 작업에 사용되는 XAI 기법의 주요 기법은 heatmap이나 saliency mask 같은 pixel attribution에 의존한다.
- 주로 perturbation (input을 바꿔 output에 변화를 관찰) 이나 gradient에 기반한다.
이는 학습된 예측 전략의 bias와 flaw들을 찾는데 성공적인 기여를 하는 반면 한계점도 존재한다.
- 1) 내부 hyper-parameter tuning과 customization에 민감하다
- 2) Result로 선택되는 format에 민감하다
- 3) 사용되는 모델에 대한 가정에 민감하다
- 예시로
- Model-agnostic attribution 기법들(LIME, SHAP)의 결과는 input perturbation range에 따라 변화한다
- 비슷하게 많은 gradient-based 모델들도 올바른 sampling interval setting을 필요로 한다
- 연관된 propagation 기법 (LRP) 등도 DNN의 layer에 맞춰 조절되어야 한다.
- 또 computational efficiency에 문제가 있는 경우도 있다
Solution ideas
Attirbution 기법의 문제를 해결하는 방법으로 다른 XAI 기법들과 합쳐 portfolio 접근 방법을 사용할 수 있다.
- Porfolio 안에 있는 기법들은 서로 협상하여 majority view를 향해 조절되고 수렴할 수 있다
- 또는 각 가정을 확률에 기반하여 나열할수도 있다
- Mechanistic interpretability는 orthogonal 한 접근 방법으로 기존 접근 방법을 호완할 수 있다
- 비슷하게 ante-hoc explainable 모델을 attribution들에 사용해 민감성과 효율성 문제를 해결할 수 있다
3.2.2 Augmenting and improving concept-based learning algorithms
Concept-based 학습 알고리즘은 post-hoc explaninability와 ante-hoc explainable 모델에 모두 사용된다.
- 모델의 예측값을 사람이 이해 가능한 attributes나 abstraction들로 설명한다.
- 예를 들어 이미지가 고양이로 분류된 이유를 특정 픽셀들의 값이 아니라 "뾰족 귀" 처럼 어떤 특징으로 설명한다.
- 모델의 input들에 존재하는 'prototypical concepts'나 'prototypes'를 나타내는 특징들을 직접적으로 학습하는 알고리즘
- ProtoPNet, ProtoTree, ProtoPShare, Concept Bottleneck Models, Concept Activation Vectors, Concept Embedding Models, Concept Atlases
- Neuro-symbolic learning
- Knowledge graph와 learning algorithm을 혼합한 기법으로 parameter에 encode된 지식을 해석
하지만 제시된 기법들은 제한되어있고, 널리 적용하기 어렵고, 사전 지식을 필요로 한다.
- 설명을 생성하는 과정에서 큰 inductive bias를 내포하고 모든 input에 대해 일반화 하기 어렵다
- 사람이 사전 정의한 지식이나 개념이 불완전하거나 잘못되었을 수 있다
Solution ideas
Object recognition 모델이나 evolutionary programming solver들을 통해 input 데이터의 특정 가능한 개념들 사이에 진화 가능한 연결점을 탐색하는 방법을 사용할 수 있다.
- Ante-hoc explainable하고 개념별로 차별적인 정보를 가지고 있는 데이터셋에 잘 맞는 symbolic classifier를 사용할 수 있다.
추가적으로 Knowledge Graph와 concept-based learning 기법을 통합시킬 필요가 있다.
- 특정 사용 방법이나 분야에 제한되지 않고 연관된 개념, attribute, 관계를 발견하는 것을 목표로 한다.
3.2.3 Removing artefacts in synthesis-based explanations
Systhesis 를 통핸 설명 생성은 XAI의 유망한 분야이다.
- 모델 예측에 기여하는 training set 예시를 합성하거나 neural network가 학습한 feature들을 시각화하는 접근 방법이다.
- 합성 접근법은 합성 이미지가 noisy 한 문제가 있다.
- 예를 들어 이미지에 artefact (인공물)이 있을 수 있다.
- 이 artefact가 합성의 결과인지 모델이 학습한 개념인지 알아내기 어렵다.
- GAN 구조를 사용한 이미지 합성에서도 비슷한 문제를 보인다.
- 예를 들어 이미지에 artefact (인공물)이 있을 수 있다.
- 합성 접근법의 두가지 기법으로는
- Decoder for layer activation과 GAN for single neuron이 있다
Solution ideas
Artefact를 최소화하기 위해서 최근 기법들이나 SOTA 모델들을 사용할 수 있다.
- 하지만 artefact가 없다고 단정지을 수 없다
- 합성에 따른 왜곡을 특정하기 위해 기존 input을 재건하는 방법을 사용할 수 있다.
3.2.4 Creating robust explanations
작은 perturbation에 취약한 posthoc XAI 기법들은 설득력 있는 설명을 생성하는데 어려움을 보여준다.
다양한 상황에서도 견고한 설명을 생성하도록 하는 기법들이 연구되고 있지만 만족할만한 해결책은 존재하지 않는다.
Solution ideas
견고한 설명을 생성하기 위해서는 먼저 XAI 기법들의 bias를 특정하기 위한 benchmark 평가가 선행되어야한다.
또 견고한 설명은 여러 설명들을 통합하여 생성할 수 있다.
다른 연구들은 모델 자체가 견고해야 설명 또한 견고할 수 있다 설명한다.
3.3 Clarifying the use of concepts in XAI
---
3.4 Evaluating XAI methods and explanations
XAI 시스템을 활용하는데 평가는 필수이다. 하지만 XAI 기법들을 평가하는 방법은 매우 복잡한 작업이고 "좋은 설명"을 정의하는 하나의 기준을 찾기 어렵다.
3.4.1 Facilitating human evaluation of explanations
XAI 기법들의 한가지 문제점은 유저에 대한 연구가 부족하다는 점이다.
- 최종 유저와의 상호작용 없은 설명하지 않고 XAI 기법 자체의 특성을 분석한다
- 유저가 어떻게 주어진 설명을 사용하고 활용하는지에 대한 실험이 부족하다
Solution ideas
XAI의 견고한 기본은 유저를 포함한 실험적인 연구가 기반이 되어야 한다.
- HCI, 심리학, 사회 과학 전문가들의 협력이 필요하다.
- 각 평가 과정을 위한 표준화된 framework를 필요로 한다.
3.4.2 Creating an evaluation framework for XAI methods
XAI 기법들을 평가하는 다양한 연구들이 존재한다.
- 많은 문학과 심리학적 평가를 통해 XAI의 질을 평가하는 연구
- 계층적인 구조를 이용해 여러 XAI 기법 평가 방법들을 축적한 연구 등
하지만 XAI 시스템을 평가하는 표준화된 방법은 존재하지 않는다.
- 다양한 연구, 문맥, 환경에서 모두 일반적으로 사용 가능한 평가 방법을 필요로 한다.
Solution ideas
이미 이 문제를 해결하기 위한 다양한 접근법들이 존재한다.
- Explanation의 질을 평가하기 위한 개념적인 특성들과 정량적인 평가 기법들을 소개하는 연구가 있다.
- Explanation을 평가하는 survey-based 기법도 제시되었다.
- XAI 평가 framework Quantus는 30개의 평가 기준을 구현한다.
- 또 CLEVER-XAI 같은 XAI 평가 데이터셋 또한 존재한다.
미래에는 computer vision 이외의 분야로 이런 평가 방법을 확장할 필요가 있다.
3.4.3 Overcoming limitations of studies with humans
사람으로 XAI 기법을 평가하는데에는 한계가 있다.
- 실험에 참가하는 사람들이 일반적인 인구 분포를 나타내지 않는다.
- 따라서 실험을 재현하기 어렵고 통계적인 분석을 하기 어렵다.
Solution ideas
합성 데이터와 가상의 참여자로 실험을 증강할 수 있다.
3.5 Supporting the human-centeredness of explanations
3.5.1 Creating human-understandable explanations
Explanation은
- social, contrastive, selective 해야 하며
- 상징적인 지식과 통계적인 접근이 가능해야 한다.
하지만 현재 많은 XAI 기법들은 이런 성질을 만족시키지 못한다.
- XAI 기법의 설명이 input data의 분야를 벗어나지 못한다.
- 설명이 보통 사람들은 이해할 수 없을 수 있고
- 설명 자체를 생성하는게 복잡한 경우도 있고
- 설명이 최선의 추측인 경우도 있다.
- 예로 Saliency map의 경우 사람의 얼굴로 인간을 판단했을 때 판단의 기준이 얼굴의 형태인지, 색인지, 특징인지 알 수 없다.
Solution ideas
Concept-based XAI 기법들
- 보통 사람들은 데이터가 아닌 개념을 통한 설명을 선호한다.
- 예로 강아지와 고양이를 분류하는데 픽셀 위치가 아닌 '꼬리 모양'이라는 개념으로 구성된 설명을 선호한다.
Local XAI 기법들과 global XAI 기법들을 통합해 더 의미있고 사람이 이해하기 쉬운 설명을 만들 수 있다.
- Concept relevance propagation (LRP 변형)처럼 학습한 개념(global)을 각 input(local)에 동시에 매칭시키는 기법도 존재한다.
Computational argumentation 기법들
- 생성되는 explanation이 사람의 추론과 비슷하게 만들 수 있다.
또 explanation들을 더 이해하기 쉬운 분야로 mapping하는 방법을 사용할 수 있다.
- 예를 들어 시간 영역에서 시계열 데이터 설명을 생성 한 후 invertible layer를 통해 다른 공간으로 설명을 mapping하는 기법이 존재한다.
- 미래에 의미있는 invertible mapping을 생성하는 방법을 연구해야 한다.
3.5.2 Facilitating explainability with concept-based explanations
사람과 AI 시스템은 다른 방식으로 의사결정을 한다.
- AI는 보통 사람이 파악할 수 있는 특징들에 기반한다.
- 사람들은 현실의 조잡한(coarse-grained) 표현방식들로 이루어진 개념들에 기반한다.
- 하지만 이 차이점은 explanation을 생성하는데 고려되지 않는다.
- 예를 들어 LIME이나 SHAP 기법들은 실제 AI 모델이 어떻게 동작하는지에 대해 설명하지 않는다.
- 반면 concept-based XAI 기법들은 사람이 이해 가능한 개념을 모델에 합성시켜 설명한다.
하지만 여전히 사람이 이해가능한 개념들에 기반한 설명은 초기 단계이다.
- Concept-based explanation들은 classification이나 regression 모델에만 적용 가능하다.
- 예를 들어 강화 학습에서 agent가 환경에 존재하는 어떤 "개념"과 상호작용해 특정 action으로 이어지는지 설명 불가능하다.
또한 실제 응용에서 사람이 이해 가능한 개념들을 통합하는 XAI 기법들을 조사하는 연구가 부족하다.
- 몇몇 개념들은 통용적이지만
- 몇몇 개념들은 이해관계자나 문화에 따라 달라질 수 있다.
- 따라서 일반화 가증하고 다양한 분야에 적용 가능한 기법의 연구가 필요하다.
Solution ideas
Concept-based XAI를 생성하는 것은 많은 sub-problem으로 이루어져 있다.
- 먼저 데이터나 AI 모델에서 관련 개념을 추출하거나 특정하는 신뢰가능한 방법이 필요하다.
- NLP, semantic analysis, 분야 특정 지식등이 사용될 수 있다.
- 그 후 개념들은 그 사용자들에게 맞춰져야 한다.
- 유저가 직접 개념을 정의하도록 할 수 있다.
- 연속적인 feedback으로 이러한 개념들을 더 의미있게 만들 수 있다.
- 추가적으로 계층적인 개념 구조로 설명의 세분화 정도를 유저가 정의하게 할 수 있다.
- 비슷하게 개념을 다른 분야나 응용에 맞춰 바꿀 수 있다.
3.5.3 Addressing explanations divorced from reality
---
3.5.4 Uncovering causality for actionable explanations
---
3.6 Supporting the multi-dimensionality of explainability
---
3.7 Adjusting XAI methods and explanations
3.7.1 Adjusting explanations to different stakeholders
많은 이해관계자들이 AI 시스템의 개발, 평가, 사용에 explanation을 요구할 수 있다.
- 각 이해관계자를 위해 explanation의 content, format, presentation을 조절하는 것은 매우 어려운 일이다.
Solution ideas
- 미래 연구들은 다양한 XAI 기법들을 합쳐 explanation의 의미를 다양하게 만들고 추가 정보들을(학습 데이터, 관계, 다른 modality) 활용할 필요가 있다.
- 또 interactive 한 explanation을 통해 변경할 수 있어야 한다.
- 이때 reinforcement learning from human feedback이 사용될 수 있다.
3.7.2 Adjusting explanations to different domains
Explanation이 사용되는 분야나 문맥은 매우 중요하다.
- 예시로 자율주행 자동차와 의료 결정 지원 시스템의 explanation은 달라야 한다.
- 자율주행 자동차의 경우 passenger의 정보는 크게 중요하지 않지만 법규를 지키는 것이 매우 중요하다
- 반대로 의료 결정 지원 시스템은 환자의 정보를 더 중요시해야한다
Explanation을 널리 적용 가능하고 정확하고 짧게 만든다는 것은 특정 분야에 대한 정보를 생략한다는 뜻이다.
- 따라서 분야를 먼저 선택하고 그 위에 explanation을 생성하는 방법을 채택한다.
Solution ideas
- Domain-specific한 explanation 모델들이 개발되어야 각 분야의 유니크한 요구사항을 만족시킬 수 있다.
- 연관된 지식, 단어, 문맥을 파악한 추론 등을 포함한 의미있는 explanation을 생성해야 한다.
3.7.3 Adjusting explanations to different goals
---
...
---
4. A novel manifesto
1. Creating Explanations for New Types of AI
- 생성형 모델들이나 distributed & collaborative 학습에 대한 explanation 생성
2. Improving (and Augmenting) Current XAI Methods
- 기존 attribution 기법들이나 concept-based 학습 알고리즘을 향상
- Synthesis-based explanation들에 있는 artefacts (인공물)을 제거
- 견고한 (robust) explanation 생성
3. Clarifying the Use of Concepts in XAI
- XAI에 핵심 개념들을 명확히 정의
- 핵심 개념들과 trustworhiness의 관계 정의
- 유용한 이해 방식 탐구
4. Evaluating XAI Methods and Explanations
- Explanation에 대한 사람의 평가를 가능하게 함
- XAI 기법들을 평가하는 framework를 생성
- 사람을 통한 평가방식의 한계를 극복
5. Supporting the Human-Centeredness of Explanations
- 사람이 이해 가능한 explanation 생성
- Concept-based explanation을 통해 설명 가능성을 더 쉽게 만듦
- 현실과 동떨어진 explanation을 처리
- Explanation에 대한 인과관계를 발견
6. Supporting Multi-Dimensionality of Explainability
- 다면적인 explanation 생성
- 여러 학문을 통합한 XAI 연구 허용
7. Adjusting XAI Methods and Explanations
- 서로 다른 분야, 목표, 사용자에 대한 explanation 조율
8. Mitigating the Negative Impact of XAI
- 다른 사용자에 대한 explanation 조절
- Explanation의 위조 가능성 기준을 고안
- 악의적인 사용자로부터 explanation을 보안
9. Improving the Societal Impact of XAI
- AI 생성 데이터의 원본성을 귀속 및 표절 탐지를 용이하게 함
- 잊혀질 권리를 지원
- 개인과 기업간 권력 불균형을 해결