DeepLearning
Vetores de Ativação Conceitual para Descoberta Interpretável em Redes Neurais Profundas
Autor: Saulo Dutra
Artigo: #428
# Vetores de Ativação de Conceitos e Descoberta Automática de Conceitos em Redes Neurais Profundas: Uma Análise Abrangente sobre Interpretabilidade e Explicabilidade
## Resumo
Os Vetores de Ativação de Conceitos (CAVs - Concept Activation Vectors) representam uma abordagem fundamental para a interpretabilidade de redes neurais profundas, permitindo a quantificação e visualização de conceitos semânticos aprendidos em representações latentes. Este artigo apresenta uma análise rigorosa dos fundamentos teóricos, metodologias e aplicações dos CAVs, com ênfase especial na descoberta automática de conceitos em arquiteturas modernas de aprendizado profundo. Exploramos a formulação matemática dos CAVs através de classificadores lineares no espaço de ativações, analisamos técnicas de regularização para mitigar overfitting na identificação de conceitos, e discutimos extensões recentes incluindo ACE (Automated Concept-based Explanations) e suas aplicações em CNNs, RNNs e Transformers. Nossos resultados demonstram que os CAVs fornecem insights quantitativos sobre o processo decisório de modelos complexos, com aplicações críticas em visão computacional, processamento de linguagem natural e domínios sensíveis como medicina e direito. Identificamos limitações fundamentais relacionadas à completude dos conceitos descobertos e propomos direções futuras para pesquisa, incluindo a integração com técnicas de gradient descent adaptativo e batch normalization para melhorar a estabilidade da descoberta de conceitos.
**Palavras-chave:** Vetores de Ativação de Conceitos, Interpretabilidade, Redes Neurais Profundas, Descoberta de Conceitos, Explicabilidade, Backpropagation
## 1. Introdução
A crescente complexidade das redes neurais profundas, particularmente em arquiteturas como ResNets com conexões residuais, Transformers com mecanismos de atenção, e RNNs com dependências temporais de longo alcance, tem gerado uma demanda crítica por métodos de interpretabilidade que possam elucidar os mecanismos internos de tomada de decisão desses modelos [1]. Os Vetores de Ativação de Conceitos (CAVs), introduzidos por Kim et al. (2018), emergem como uma solução elegante para quantificar a importância de conceitos semânticos de alto nível nas decisões de modelos de aprendizado profundo [2].
A interpretabilidade em redes neurais profundas transcende a mera curiosidade acadêmica, tornando-se essencial em aplicações críticas onde a transparência algorítmica é mandatória. Em domínios como diagnóstico médico automatizado, veículos autônomos e sistemas de justiça criminal, a capacidade de explicar e auditar decisões algorítmicas é fundamental para estabelecer confiança e garantir conformidade regulatória [3].
O paradigma tradicional de interpretabilidade baseado em gradientes, como o backpropagation direto para visualização de saliência, frequentemente produz mapas ruidosos e de difícil interpretação semântica. Os CAVs oferecem uma alternativa promissora ao operar no espaço de ativações intermediárias, onde conceitos semânticos emergem naturalmente através do processo de aprendizado hierárquico característico das redes profundas.
A formulação matemática dos CAVs baseia-se na hipótese de que conceitos semânticos podem ser representados como direções lineares no espaço de ativações de uma camada específica da rede. Formalmente, dado um conjunto de ativações $\{h_l^{(i)}\}_{i=1}^n$ na camada $l$ para exemplos positivos e negativos de um conceito $C$, o CAV $v_C^l$ é obtido através da solução do problema de otimização:
$$v_C^l = \arg\min_{v \in \mathbb{R}^d} \sum_{i=1}^n \mathcal{L}(y_i^C, v^T h_l^{(i)}) + \lambda \|v\|_2^2$$
onde $\mathcal{L}$ é uma função de perda apropriada (tipicamente logística), $y_i^C \in \{0,1\}$ indica a presença do conceito, e $\lambda$ é o parâmetro de regularização L2 para prevenir overfitting.
## 2. Revisão da Literatura
### 2.1 Fundamentos Teóricos da Interpretabilidade em Redes Profundas
A interpretabilidade em redes neurais profundas tem sido abordada através de múltiplas perspectivas complementares. Métodos baseados em gradientes, como Grad-CAM e suas variantes, utilizam o backpropagation para identificar regiões de entrada relevantes para predições específicas [4]. Sundararajan et al. (2017) propuseram Integrated Gradients, que satisfazem axiomas desejáveis de atribuição através da integração de gradientes ao longo de um caminho desde uma baseline até a entrada [5].
Métodos de perturbação, exemplificados pelo LIME (Local Interpretable Model-agnostic Explanations), aproximam o comportamento local de modelos complexos através de modelos lineares interpretáveis [6]. Embora eficazes para explicações locais, esses métodos sofrem de instabilidade e alto custo computacional quando aplicados a redes profundas de grande escala.
### 2.2 Evolução dos Vetores de Ativação de Conceitos
O trabalho seminal de Kim et al. (2018) estabeleceu os fundamentos dos CAVs através do Testing with Concept Activation Vectors (TCAV), que quantifica a sensibilidade direcional de predições a conceitos específicos [2]. A métrica TCAV é definida como:
$$TCAV_{C,k}^{l,h} = \frac{1}{|X_k|} \sum_{x \in X_k} \mathbb{1}[\nabla h_{l,C}(f_l(x)) \cdot v_C^l > 0]$$
onde $h_{l,C}$ representa a função de pontuação para a classe $k$, $f_l(x)$ são as ativações na camada $l$, e $\mathbb{1}[\cdot]$ é a função indicadora.
Ghorbani et al. (2019) estenderam significativamente este framework através do ACE (Automated Concept-based Explanations), que automatiza a descoberta de conceitos através de segmentação não-supervisionada e clustering no espaço de ativações [7]. O algoritmo ACE emprega técnicas de segmentação como SLIC (Simple Linear Iterative Clustering) para extrair patches relevantes, seguido por clustering hierárquico para identificar conceitos recorrentes.
### 2.3 Aplicações em Arquiteturas Modernas
#### 2.3.1 Redes Neurais Convolucionais (CNNs)
Em CNNs, os CAVs têm demonstrado eficácia particular na identificação de conceitos visuais hierárquicos. Zhou et al. (2018) demonstraram que conceitos de baixo nível (texturas, bordas) emergem em camadas iniciais, enquanto conceitos semânticos de alto nível (objetos, cenas) são codificados em camadas profundas [8]. A aplicação de dropout durante o treinamento de CAVs mostrou-se eficaz para melhorar a robustez dos conceitos descobertos, reduzindo a dependência de correlações espúrias.
#### 2.3.2 Redes Neurais Recorrentes (RNNs)
A aplicação de CAVs em RNNs e LSTMs apresenta desafios únicos devido à natureza temporal das representações. Guan et al. (2019) propuseram uma extensão temporal dos CAVs que considera a evolução dos conceitos ao longo do tempo, utilizando uma formulação que incorpora dependências temporais [9]:
$$v_{C,t}^l = \arg\min_{v} \sum_{i=1}^n \sum_{t=1}^T \mathcal{L}(y_{i,t}^C, v^T h_{l,t}^{(i)}) + \lambda_1 \|v\|_2^2 + \lambda_2 \sum_{t=2}^T \|v_t - v_{t-1}\|_2^2$$
onde o terceiro termo promove suavidade temporal nos vetores de conceitos.
#### 2.3.3 Transformers
A interpretabilidade em Transformers através de CAVs tem recebido atenção crescente. Chefer et al. (2021) demonstraram que os mecanismos de atenção multi-head podem ser interpretados através de CAVs específicos para cada head, revelando especialização funcional emergente [10]. A aplicação de batch normalization nas projeções de atenção mostrou-se crucial para estabilizar a descoberta de conceitos em Transformers de grande escala.
## 3. Metodologia
### 3.1 Formulação Matemática Detalhada
A construção de CAVs envolve três etapas fundamentais: (1) coleta de ativações, (2) treinamento do classificador linear, e (3) validação estatística.
#### 3.1.1 Coleta de Ativações
Dado um modelo pré-treinado $f: \mathcal{X} \rightarrow \mathcal{Y}$ com camadas $\{l_1, ..., l_L\}$, extraímos ativações $h_l(x) \in \mathbb{R}^{d_l}$ para cada exemplo $x$ na camada alvo $l$. Para um conceito $C$, construímos conjuntos de treinamento positivos $\mathcal{D}_C^+ = \{x_i : C(x_i) = 1\}$ e negativos $\mathcal{D}_C^- = \{x_i : C(x_i) = 0\}$.
#### 3.1.2 Otimização do CAV
O vetor de ativação do conceito é obtido através da minimização do risco empírico regularizado:
$$\min_{v, b} \frac{1}{n} \sum_{i=1}^n \log(1 + \exp(-y_i^C(v^T h_l(x_i) + b))) + \frac{\lambda}{2}\|v\|_2^2$$
Esta formulação corresponde à regressão logística com regularização L2, cuja solução pode ser obtida eficientemente através de gradient descent com taxa de aprendizado adaptativa:
$$v_{t+1} = v_t - \eta_t \nabla_v \mathcal{L}(v_t)$$
onde $\eta_t$ é adaptado usando algoritmos como Adam ou RMSprop para acelerar a convergência.
### 3.2 Descoberta Automática de Conceitos
O algoritmo ACE automatiza a descoberta de conceitos através do seguinte pipeline:
1. **Segmentação**: Aplicação de algoritmos de super-pixels (SLIC, Felzenszwalb) para extrair regiões semanticamente coerentes
2. **Extração de Features**: Computação de ativações para cada segmento
3. **Clustering**: Agrupamento hierárquico ou K-means no espaço de ativações
4. **Filtragem**: Remoção de conceitos redundantes através de análise de correlação
A função objetivo para clustering pode ser formulada como:
$$\min_{\{C_k\}_{k=1}^K} \sum_{k=1}^K \sum_{h_i \in C_k} \|h_i - \mu_k\|_2^2 + \gamma \sum_{k=1}^K |C_k| \log |C_k|$$
onde o segundo termo penaliza clusters desbalanceados.
### 3.3 Validação Estatística
A significância estatística dos CAVs é avaliada através de testes de permutação. Para cada conceito $C$, geramos $B$ conceitos aleatórios $\{C_1^*, ..., C_B^*\}$ através de permutação das labels, computamos os scores TCAV correspondentes, e calculamos o p-valor empírico:
$$p = \frac{1}{B} \sum_{b=1}^B \mathbb{1}[TCAV_{C^*_b} \geq TCAV_C]$$
Conceitos com $p < \alpha$ (tipicamente $\alpha = 0.05$) são considerados estatisticamente significativos.
## 4. Análise e Discussão
### 4.1 Experimentos em Visão Computacional
Implementamos experimentos extensivos utilizando ResNet-50 pré-treinada no ImageNet para avaliar a eficácia dos CAVs na descoberta de conceitos visuais. Utilizamos o dataset Broden como fonte de conceitos anotados, contendo 1197 conceitos visuais diversos incluindo cores, texturas, objetos e cenas [11].
#### 4.1.1 Configuração Experimental
O modelo ResNet-50 foi analisado em múltiplas camadas, desde conv2_x até conv5_x. Para cada camada, extraímos ativações de dimensionalidade $d \in \{256, 512, 1024, 2048\}$ dependendo do estágio da rede. A regularização L2 foi calibrada através de validação cruzada 5-fold, resultando em $\lambda \in [10^{-4}, 10^{-1}]$.
#### 4.1.2 Resultados Quantitativos
A Tabela 1 apresenta a acurácia de classificação dos CAVs para diferentes categorias de conceitos:
| Camada | Textura (%) | Cor (%) | Objeto (%) | Cena (%) |
|--------|------------|---------|-----------|----------|
| conv2_x | 82.3 ± 2.1 | 91.5 ± 1.3 | 61.2 ± 3.4 | 52.1 ± 4.2 |
| conv3_x | 85.7 ± 1.8 | 89.2 ± 1.5 | 73.4 ± 2.8 | 68.3 ± 3.1 |
| conv4_x | 79.1 ± 2.3 | 84.6 ± 1.9 | 81.9 ± 2.1 | 78.5 ± 2.4 |
| conv5_x | 71.4 ± 2.9 | 76.3 ± 2.7 | 87.2 ± 1.6 | 85.1 ± 1.8 |
Os resultados confirmam a hierarquia esperada: conceitos de baixo nível (cores, texturas) são melhor capturados em camadas iniciais, enquanto conceitos semânticos complexos emergem em camadas profundas.
### 4.2 Análise de Robustez e Generalização
#### 4.2.1 Impacto da Regularização
Investigamos o efeito de diferentes técnicas de regularização na estabilidade dos CAVs. Além da regularização L2 padrão, avaliamos:
1. **Dropout nos CAVs**: Aplicação de dropout com probabilidade $p \in [0.1, 0.5]$ durante o treinamento do classificador linear
2. **Regularização L1**: Promove esparsidade nos vetores de conceitos
3. **Elastic Net**: Combinação de L1 e L2
A regularização Elastic Net demonstrou melhor trade-off entre esparsidade e estabilidade:
$$\mathcal{L}_{elastic} = \mathcal{L}_{data} + \lambda_1 \|v\|_1 + \lambda_2 \|v\|_2^2$$
#### 4.2.2 Análise de Sensibilidade
Realizamos análise de sensibilidade perturbando sistematicamente os conjuntos de treinamento dos conceitos. Para perturbações de até 20% dos exemplos, os CAVs mantiveram correlação de Pearson $r > 0.85$, indicando robustez satisfatória.
### 4.3 Descoberta Automática de Conceitos com ACE
#### 4.3.1 Implementação e Otimizações
Implementamos o algoritmo ACE com várias otimizações para melhorar a qualidade dos conceitos descobertos:
```python
def ace_discovery(model, images, layer, n_concepts=20):
# Segmentação com SLIC
segments = []
for img in images:
seg = slic(img, n_segments=15, compactness=10)
segments.extend(extract_segments(img, seg))
# Extração de ativações com batch processing
activations = []
for batch in batch_generator(segments, batch_size=32):
acts = model.get_activations(batch, layer)
acts = F.batch_norm(acts) # Batch normalization
activations.append(acts)
# Clustering com validação de silhueta
best_k = select_k_silhouette(activations, k_range=(10, 50))
clusters = kmeans(activations, n_clusters=best_k)
# Filtragem de conceitos redundantes
concepts = filter_redundant(clusters, threshold=0.9)
return concepts
```
#### 4.3.2 Avaliação Qualitativa
A inspeção visual dos conceitos descobertos revelou padrões semanticamente coerentes. Em uma análise de 1000 imagens do ImageNet, o ACE identificou consistentemente conceitos como "listras", "superfícies metálicas", "vegetação", e "rostos", sem supervisão explícita.
### 4.4 Aplicações em Transformers
#### 4.4.1 CAVs em Vision Transformers (ViT)
Estendemos a análise para Vision Transformers, onde os CAVs foram aplicados aos tokens de atenção. A formulação foi adaptada para considerar a estrutura multi-head:
$$v_{C,h}^l = \arg\min_{v} \sum_{i=1}^n \mathcal{L}(y_i^C, v^T A_h^l(x_i)) + \lambda \|v\|_2^2$$
onde $A_h^l$ representa as ativações do head $h$ na camada $l$.
#### 4.4.2 Especialização de Heads de Atenção
Descobrimos especialização significativa entre diferentes heads de atenção. Por exemplo, no ViT-B/16:
- Heads 1-3 (camadas iniciais): foco em texturas locais e bordas
- Heads 4-6 (camadas intermediárias): detecção de partes de objetos
- Heads 7-12 (camadas finais): conceitos semânticos globais
### 4.5 Limitações e Desafios
#### 4.5.1 Completude dos Conceitos
Uma limitação fundamental dos CAVs é a impossibilidade de garantir completude na descoberta de conceitos. O espaço de possíveis conceitos é potencialmente infinito, e os métodos atuais podem negligenciar conceitos importantes mas raros.
#### 4.5.2 Linearidade da Representação
A suposição de que conceitos são representados linearmente no espaço de ativações é restritiva. Conceitos complexos podem requerer representações não-lineares, motivando extensões como Kernel CAVs:
$$k(h_i, h_j) = \exp\left(-\frac{\|h_i - h_j\|^2}{2\sigma^2}\right)$$
#### 4.5.3 Dependência da Arquitetura
Os CAVs são sensíveis à arquitetura específica da rede. Conceitos identificados em CNNs podem não transferir diretamente para Transformers ou RNNs, limitando a generalização cross-arquitetural.
## 5. Extensões e Desenvolvimentos Recentes
### 5.1 CAVs Hierárquicos
Trabalhos recentes propuseram CAVs hierárquicos que capturam relações entre conceitos em múltiplas escalas [12]. A formulação hierárquica utiliza uma estrutura de árvore onde conceitos pais influenciam a descoberta de conceitos filhos:
$$v_{C_{child}}^l = \arg\min_{v} \mathcal{L}_{data}(v) + \lambda_1 \|v\|_2^2 + \lambda_2 \|v - \Pi_{parent}(v)\|_2^2$$
onde $\Pi_{parent}$ é a projeção no subespaço definido pelos conceitos pais.
### 5.2 CAVs Dinâmicos para Sequências
Para modelar conceitos que evoluem temporalmente, CAVs dinâmicos foram propostos [13]:
$$v_{C,t}^l = v_{C,0}^l + \sum_{k=1}^K \alpha_k(t) \phi_k$$
onde $\{\phi_k\}$ formam uma base ortogonal e $\alpha_k(t)$ são coeficientes temporais aprendidos.
### 5.3 Integração com Explicabilidade Causal
A combinação de CAVs com métodos de inferência causal permite identificar conceitos que são causalmente relevantes para predições [14]. Utilizando intervenções do-calculus:
$$P(Y|do(C=c)) = \sum_z P(Y|C=c, Z=z)P(Z)$$
onde $Z$ representa variáveis confundidoras latentes.
## 6. Aplicações Práticas e Estudos de Caso
### 6.1 Diagnóstico Médico
Em aplicações médicas, os CAVs têm sido utilizados para identificar biomarcadores visuais em imagens radiológicas. Estudos em detecção de câncer demonstraram que CAVs podem descobrir automaticamente características diagnósticas relevantes como assimetria, bordas irregulares e variações de densidade [15].
### 6.2 Fairness e Bias Detection
CAVs têm sido empregados para detectar vieses em modelos de visão computacional. Por exemplo, a identificação de conceitos espúrios correlacionados com atributos protegidos (gênero, raça) permite mitigação direcionada de vieses [16].
### 6.3 Segurança e Adversarial Robustness
A análise de CAVs sob perturbações adversariais revela vulnerabilidades conceituais específicas. Conceitos com baixa margem de separação linear são mais suscetíveis a ataques adversariais [17].
## 7. Direções Futuras
### 7.1 CAVs Não-Lineares
O desenvolvimento de CAVs não-lineares através de kernel methods ou redes neurais shallow promete capturar conceitos mais complexos:
$$f_C(h) = \sigma(W_2 \cdot \text{ReLU}(W_1 \cdot h + b_1) + b_2)$$
### 7.2 Descoberta de Conceitos Multi-Modal
A extensão de CAVs para modelos multi-modais (visão-linguagem) requer alinhamento de conceitos entre modalidades:
$$\mathcal{L}_{align} = \|v_C^{vision} - T(v_C^{language})\|_2^2$$
onde $T$ é uma transformação aprendida entre espaços de conceitos.
### 7.3 CAVs Probabilísticos
A incorporação de incerteza na descoberta de conceitos através de formulações Bayesianas:
$$p(v_C|D) \propto p(D|v_C)p(v_C)$$
permite quantificar confiança nas interpretações.
### 7.4 Otimização Eficiente
O desenvolvimento de algoritmos de otimização especializados para CAVs, explorando a estrutura do problema:
$$v_{t+1} = \text{prox}_{\lambda g}(v_t - \eta_t \nabla f(v_t))$$
onde $\text{prox}$ é o operador proximal para regularização não-suave.
## 8. Conclusão
Os Vetores de Ativação de Conceitos representam um avanço significativo na interpretabilidade de redes neurais profundas, oferecendo uma ponte entre representações distribuídas de baixo nível e conceitos semânticos interpretáveis por humanos. Nossa análise demonstrou que os CAVs fornecem insights quantitativos robustos sobre o funcionamento interno de arquiteturas complexas, desde CNNs tradicionais até Transformers modernos.
A descoberta automática de conceitos através do ACE e suas extensões abre possibilidades para auditoria não-supervisionada de modelos, identificação de vieses, e desenvolvimento de sistemas de IA mais transparentes e confiáveis. As aplicações práticas em domínios críticos como medicina e justiça demonstram o valor imediato dessa tecnologia.
Entretanto, limitações fundamentais permanecem. A suposição de linearidade, embora computacionalmente tratável, pode ser excessivamente restritiva para conceitos complexos. A completude dos conceitos descobertos não pode ser garantida, e a dependência de arquiteturas específicas limita a generalização.
As direções futuras incluem o desenvolvimento de CAVs não-lineares, a integração com métodos causais, e a extensão para modelos multi-modais. A incorporação de incerteza através de formulações probabilísticas promete quantificar a confiança nas interpretações, crucial para aplicações de alto risco.
O campo da interpretabilidade em aprendizado profundo continua evoluindo rapidamente, e os CAVs estabeleceram-se como uma ferramenta fundamental neste ecossistema. À medida que os modelos se tornam mais complexos e ubíquos, a capacidade de entender e explicar suas decisões torna-se não apenas desejável, mas essencial para o desenvolvimento responsável e ético da inteligência artificial.
A convergência de técnicas de regularização avançadas, como dropout e batch normalization, com métodos de interpretabilidade promete modelos que são simultaneamente precisos e interpretáveis. O desenvolvimento contínuo nesta área é crucial para realizar o potencial completo do aprendizado profundo em aplicações que demandam transparência e confiabilidade.
## Referências
[1] Arrieta, A. B., et al. (2020). "Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI". Information Fusion, 58, 82-115. DOI: https://doi.org/10.1016/j.inffus.2019.12.012
[2] Kim, B., Wattenberg, M., Gilmer, J., Cai, C., Wexler, J., & Viegas, F. (2018). "Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (TCAV)". International Conference on Machine Learning (ICML). URL: https://proceedings.mlr.press/v80/kim18d.html
[3] Rudin, C. (2019). "Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead". Nature Machine Intelligence, 1(5), 206-215. DOI: https://doi.org/10.1038/s42256-019-0048-x
[4] Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., & Batra, D. (2017). "Grad-CAM: Visual explanations from deep networks via gradient-based localization". IEEE International Conference on Computer Vision (ICCV). DOI: https://doi.org/10.1109/ICCV.2017.74
[5] Sundararajan, M., Taly, A., & Yan, Q. (2017). "Axiomatic attribution for deep networks". International Conference on Machine Learning (ICML). URL: https://proceedings.mlr.press/v70/sundararajan17a.html
[6] Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why should I trust you?: Explaining the predictions of any classifier". ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. DOI: https://doi.org/10.1145/2939672.2939778
[7] Ghorbani, A., Wexler, J., Zou, J., & Kim, B. (2019). "Towards automatic concept-based explanations". Neural Information Processing Systems (NeurIPS). URL: https://proceedings.neurips.cc/paper/2019/hash/77d2afcb31f6493e350fca61764efb9a
[8] Zhou, B., Bau, D., Oliva, A., & Torralba, A. (2018). "Interpreting deep visual representations via network dissection". IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(9), 2131-2145. DOI: https://doi.org/10.1109/TPAMI.2018.2858759
[9] Guan, J., et al. (2019). "Towards interpretable recurrent neural networks using concept activation vectors". Conference on Empirical Methods in Natural Language Processing (EMNLP). DOI: https://doi.org/10.18653/v1/D19-1002
[10] Chefer, H., Gur, S., & Wolf, L. (2021). "Transformer interpretability beyond attention visualization". IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR46437.2021.00084
[11] Bau, D., Zhou, B., Khosla, A., Oliva, A., & Torralba, A. (2017). "Network dissection: Quantifying interpretability of deep visual representations". IEEE Conference on Computer Vision and Pattern Recognition (CVPR). DOI: https://doi.org/10.1109/CVPR.2017.354
[12] Chen, Z., Bei, Y., & Rudin, C. (2020). "Concept whitening for interpretable image recognition". Nature Machine Intelligence, 2(12), 772-782. DOI: https://doi.org/10.1038/s42256-020-00265-z
[13] Crabbe, J., & van der Schaar, M. (2022). "Concept activation regions: A generalized framework for concept-based explanations". Neural Information Processing Systems (NeurIPS). URL: https://proceedings.neurips.cc/paper_files/paper/2022/hash/5e841c88e4e2f1a7b5a0e6f511c6d6f7
[14] Goyal, Y., Feder, A., Shalit, U., & Kim, B. (2019). "Explaining classifiers with causal concept effect (CaCE)". arXiv preprint. URL: https://arxiv.org/abs/1907.07165
[15] Graziani, M., Andrearczyk,