shap.maskers.Partition

class shap.maskers.Partition(data, max_samples=100, clustering='correlation')

此掩码器通过对给定的背景数据集进行积分来掩盖表格特征。

与 Independent 不同,Partition 尊重数据的层次结构。

__init__(data, max_samples=100, clustering='correlation')

使用给定的背景数据和聚类构建 Partition 掩码器。

参数:
datanumpy.ndarray, pandas.DataFrame

用于掩码的背景数据集。

max_samplesint

从传递的背景数据中使用的最大样本数。如果数据超过 max_samples,则使用 shap.utils.sample 对数据集进行子采样。从掩码器输出的样本数(要积分的样本数)与背景数据集中的样本数匹配。这意味着较大的背景数据集会导致更长的运行时。通常,大约 1、10、100 或 1000 个背景样本是合理的选择。

clusteringstring 或 numpy.ndarray

如果为字符串,则这是用于创建特征聚类的距离度量。距离函数可以是任何有效的 scipy.spatial.distance.pdist 的 metric 参数。但是,我们建议在大多数情况下使用 ‘correlation’。完整选项列表为 braycurtis, canberra, chebyshev, cityblock, correlation, cosine, dice, euclidean, hamming, jaccard, jensenshannon, kulsinski, mahalanobis, matching, minkowski, rogerstanimoto, russellrao, seuclidean, sokalmichener, sokalsneath, sqeuclidean, yule。这些都是 scipy.spatial.distance.pdist 的 metric 参数的所有选项。如果为数组,则假定这是特征的聚类。

方法

__init__(data[, max_samples, clustering])

使用给定的背景数据和聚类构建 Partition 掩码器。

invariants(x)

此方法返回一个掩码,指示哪些特征在被掩盖时会发生变化。

load(in_file[, instantiate])

从文件流加载表格掩码器。

save(out_file)

将表格掩码器写入文件流。

invariants(x)

此方法返回一个掩码,指示哪些特征在被掩盖时会发生变化。

这种可选的掩码方法允许解释器在要掩盖的特征都是不变的时避免重新评估模型。

classmethod load(in_file, instantiate=True)

从文件流加载表格掩码器。

save(out_file)

将表格掩码器写入文件流。