shap.maskers.Text

class shap.maskers.Text(tokenizer=None, mask_token=None, collapse_mask_token='auto', output_type='string')

此掩码器根据给定的分词器屏蔽 tokens。

被掩码的变量是

output_type : “string” (默认) 或 “token_ids”

__init__(tokenizer=None, mask_token=None, collapse_mask_token='auto', output_type='string')

构建一个新的 Text 掩码器，可以传入可选的分词器。

参数:

tokenizercallable 或 None: 用于在掩码期间分解字符串的分词器。传递的分词器必须支持 HuggingFace Transformers PreTrainedTokenizerBase API 的最小子集。这个最小子集意味着分词器必须返回一个字典，其中包含 ‘input_ids’，然后要么在同一个字典中包含 ‘offset_mapping’ 条目，要么提供 .convert_ids_to_tokens 或 .decode 方法。
mask_tokenstring、int 或 None: 用于屏蔽字符串部分内容的子字符串或整数 token id。如果为 None，它将使用分词器的 .mask_token 属性（如果已定义），或者如果分词器没有 .mask_token 属性，则使用 “…”。
collapse_mask_tokenTrue、False 或 “auto”: 如果为 True，当连续的多个 tokens 被掩码时，仅使用一个掩码 token 来替换整个原始 tokens 序列。

方法

`__init__`([tokenizer, mask_token, ...])	构建一个新的 Text 掩码器，可以传入可选的分词器。
`clustering`(s)	计算给定字符串的 tokens 聚类。
`data_transform`(s)	由解释器调用，允许我们将数据转换为更匹配掩码的形式（这里意味着分词）。
`feature_names`(s)	给定输入字符串的每个掩码位置的特征名称。
`invariants`(s)	给定输入字符串的每个掩码位置的特征名称。
`load`(in_file[, instantiate])	从文件流加载 Text 掩码器。
`mask_shapes`(s)	我们期望的掩码形状。
`save`(out_file)	将 Text 掩码器保存到文件流。
`shape`(s)	我们作为掩码器返回的形状。
`token_segments`(s)	返回与给定字符串中每个 token 关联的子字符串。

shape(s)

我们作为掩码器返回的形状。

请注意，我们只返回单个样本，因此没有期望平均。