shap.maskers.Text
- class shap.maskers.Text(tokenizer=None, mask_token=None, collapse_mask_token='auto', output_type='string')
- 此掩码器根据给定的分词器屏蔽 tokens。 - 被掩码的变量是 - output_type : “string” (默认) 或 “token_ids” - __init__(tokenizer=None, mask_token=None, collapse_mask_token='auto', output_type='string')
- 构建一个新的 Text 掩码器,可以传入可选的分词器。 - 参数:
- tokenizercallable 或 None
- 用于在掩码期间分解字符串的分词器。传递的分词器必须支持 HuggingFace Transformers PreTrainedTokenizerBase API 的最小子集。这个最小子集意味着分词器必须返回一个字典,其中包含 ‘input_ids’,然后要么在同一个字典中包含 ‘offset_mapping’ 条目,要么提供 .convert_ids_to_tokens 或 .decode 方法。 
- mask_tokenstring、int 或 None
- 用于屏蔽字符串部分内容的子字符串或整数 token id。如果为 None,它将使用分词器的 .mask_token 属性(如果已定义),或者如果分词器没有 .mask_token 属性,则使用 “…”。 
- collapse_mask_tokenTrue、False 或 “auto”
- 如果为 True,当连续的多个 tokens 被掩码时,仅使用一个掩码 token 来替换整个原始 tokens 序列。 
 
 
 - 方法 - __init__([tokenizer, mask_token, ...])- 构建一个新的 Text 掩码器,可以传入可选的分词器。 - clustering(s)- 计算给定字符串的 tokens 聚类。 - 由解释器调用,允许我们将数据转换为更匹配掩码的形式(这里意味着分词)。 - 给定输入字符串的每个掩码位置的特征名称。 - invariants(s)- 给定输入字符串的每个掩码位置的特征名称。 - load(in_file[, instantiate])- 从文件流加载 Text 掩码器。 - mask_shapes(s)- 我们期望的掩码形状。 - save(out_file)- 将 Text 掩码器保存到文件流。 - shape(s)- 我们作为掩码器返回的形状。 - 返回与给定字符串中每个 token 关联的子字符串。 - clustering(s)
- 计算给定字符串的 tokens 聚类。 
 - data_transform(s)
- 由解释器调用,允许我们将数据转换为更匹配掩码的形式(这里意味着分词)。 
 - feature_names(s)
- 给定输入字符串的每个掩码位置的特征名称。 
 - invariants(s)
- 给定输入字符串的每个掩码位置的特征名称。 
 - classmethod load(in_file, instantiate=True)
- 从文件流加载 Text 掩码器。 
 - mask_shapes(s)
- 我们期望的掩码形状。 
 - save(out_file)
- 将 Text 掩码器保存到文件流。 
 - shape(s)
- 我们作为掩码器返回的形状。 - 请注意,我们只返回单个样本,因此没有期望平均。 
 - token_segments(s)
- 返回与给定字符串中每个 token 关联的子字符串。