情感分类多类别示例

本笔记本演示了如何在多类别文本分类场景中使用 Partition 解释器。一旦计算出一组句子的 SHAP 值，我们就可以可视化特征对各个类别的归因。我们使用的文本分类模型是 BERT，它在情感数据集上进行了微调，以将句子分类为六个类别：喜悦、悲伤、愤怒、恐惧、爱和惊讶。

[1]:

import datasets
import pandas as pd
import transformers

import shap

# load the emotion dataset
dataset = datasets.load_dataset("emotion", split="train")
data = pd.DataFrame({"text": dataset["text"], "emotion": dataset["label"]})

Using custom data configuration default
Reusing dataset emotion (/home/slundberg/.cache/huggingface/datasets/emotion/default/0.0.0/aa34462255cd487d04be8387a2d572588f6ceee23f784f37365aa714afeb8fe6)

构建 transformers 流水线

请注意，我们为流水线设置了 return_all_scores=True，以便我们可以观察模型对所有类别的行为，而不仅仅是顶部输出。

[2]:

# load the model and tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained("nateraw/bert-base-uncased-emotion", use_fast=True)
model = transformers.AutoModelForSequenceClassification.from_pretrained("nateraw/bert-base-uncased-emotion").cuda()

# build a pipeline object to do predictions
pred = transformers.pipeline(
    "text-classification",
    model=model,
    tokenizer=tokenizer,
    device=0,
    return_all_scores=True,
)

为流水线创建解释器

transformers 流水线对象可以直接传递给 shap.Explainer，这会将流水线模型包装为 shap.models.TransformersPipeline 模型，并将流水线分词器包装为 shap.maskers.Text 掩码器。

[3]:

explainer = shap.Explainer(pred)

计算 SHAP 值

解释器与它们正在解释的模型具有相同的方法签名，因此我们只需传递一个字符串列表，用于解释分类。

[4]:

shap_values = explainer(data["text"][:3])

可视化所有输出类别的影响

在下面的图中，当您将鼠标悬停在输出类别上时，您将获得该输出类别的解释。当您单击输出类别名称时，该类别将保持解释可视化的焦点，直到您单击另一个类别。

基准值是当整个输入文本被掩盖时模型输出的值，而 \(f_{output class}(inputs)\) 是模型对于完整原始输入的输出。SHAP 值以累加的方式解释了取消掩盖每个词如何将模型输出从基准值（整个输入被掩盖时）更改为最终预测值。

[5]:

shap.plots.text(shap_values)

[0]

输出

悲伤

喜悦

爱

愤怒

恐惧

惊讶

输入

我

不

是

感觉

羞辱

[1]

输出

悲伤

喜悦

爱

愤怒

恐惧

惊讶

输入

我

能

去

从

感觉

如此

绝望

到

如此

该死

充满希望

只是

从

在

周围

某人

谁

关心

和

是

醒着

[2]

输出

悲伤

喜悦

爱

愤怒

恐惧

惊讶

输入

我

抓住

一个

分钟

到

帖子

我

感觉

贪婪

错误

可视化单个类别的影响

由于 Explanation 对象是可切片的，我们可以切出一个输出类别来可视化模型对该类别的输出。

[11]:

shap.plots.text(shap_values[:, :, "anger"])

[0]

输入

我

不

是

感觉

羞辱

[1]

输入

我

能去

从

感觉

如此

绝望

到

如此

该死

充满希望

只是

从

在

周围

某人

谁

关心

和

是

醒着

[2]

输入

我

抓住

一个

分钟

到

帖子

我

感觉

贪婪

错误

绘制影响特定类别的顶部词汇

除了切片之外，Explanation 对象还支持一组缩减方法。这里我们使用 .mean(0) 来获取所有词语对“喜悦”类别的平均影响。请注意，这里我们还对三个示例进行了平均，为了获得更好的总结，您需要使用数据集的更大部分。

[12]:

shap.plots.bar(shap_values[:, :, "joy"].mean(0))

../../../_images/example_notebooks_text_examples_sentiment_analysis_Emotion_classification_multiclass_example_14_0.png

[13]:

# we can sort the bar chart in decending order
shap.plots.bar(shap_values[:, :, "joy"].mean(0), order=shap.Explanation.argsort)

../../../_images/example_notebooks_text_examples_sentiment_analysis_Emotion_classification_multiclass_example_15_0.png

[14]:

# ...or acending order
shap.plots.bar(shap_values[:, :, "joy"].mean(0), order=shap.Explanation.argsort.flip)

../../../_images/example_notebooks_text_examples_sentiment_analysis_Emotion_classification_multiclass_example_16_0.png

解释对数几率而非概率

在上面的示例中，我们解释了流水线对象的直接输出，即类别概率。有时在对数几率空间中工作更有意义，在其中添加和减去效果是很自然的（加法和减法对应于证据信息位的加法或减法）。要使用 logits，我们可以使用 shap.models.TransformersPipeline 对象的一个参数

[15]:

logit_explainer = shap.Explainer(shap.models.TransformersPipeline(pred, rescale_to_logits=True))

logit_shap_values = logit_explainer(data["text"][:3])
shap.plots.text(logit_shap_values)

[0]

输出

悲伤

喜悦

爱

愤怒

恐惧

惊讶

输入

我

不

是

感觉

羞辱

[1]

输出

悲伤

喜悦

爱

愤怒

恐惧

惊讶

输入

我

能去

从

感觉

如此

绝望

到如此

该死

充满希望

只是从

在周围

某人谁

关心

和

是

醒着

[2]

输出

悲伤

喜悦

爱

愤怒

恐惧

惊讶

输入

我

抓住

一个

分钟

到

帖子

我

感觉

贪婪

错误

有更多有用的示例的想法吗？鼓励提交 pull request 来为此文档笔记本添加内容！