shap.datasets.adult

shap.datasets.adult(display: bool = False, n_points: int | None = None) tuple[DataFrame, ndarray]

以结构化格式返回 Adult 人口普查数据。

用于二元分类任务。

参数:
displaybool, 可选

如果为 True,则返回不包含目标列和冗余列的原始数据。

n_pointsint, 可选

要采样的数据点数量。如果提供,则随机采样指定数量的点。

返回:
Xpd.DataFrame

如果 display 为 True,则 X 包含不包含 ‘Education’、‘Target’ 和 ‘fnlwgt’ 列的原始数据。否则,X 包含不包含 ‘Target’ 和 ‘fnlwgt’ 列的处理后数据。

ynp.ndarray

‘Target’ 列作为数组返回。

注释

  • 原始数据包含以下列

    • Age (float) : 年龄(年)。

    • Workclass (category) : 就业类型。

    • fnlwgt (float) : 最终权重;记录代表的目标人群中的单元数量。

    • Education (category) : 获得的最高教育水平。

    • Education-Num (float) : 教育水平的数字表示。

    • Marital Status (category) : 个人婚姻状况。

    • Occupation (category) : 职业类型。

    • Relationship (category) : 关系状态。

    • Race (category) : 个人种族。

    • Sex (category) : 个人性别。

    • Capital Gain (float) : 记录的资本收益。

    • Capital Loss (float) : 记录的资本损失。

    • Hours per week (float) : 每周工作小时数。

    • Country (category) : 原籍国。

    • Target (category) : 二元目标变量,指示个人收入是否超过 5 万美元。

  • ‘Education’ 列与 ‘Education-Num’ 列冗余,为简化起见已删除。

  • ‘Target’ 列被转换为二元值 (True/False),其中 ‘>50K’ 为 True,‘<=50K’ 为 False。

  • 某些类别列被编码为数值表示。

示例

获取处理后的数据和目标标签

data, target = shap.datasets.adult()

获取用于显示的原始数据

raw_data, target = shap.datasets.adult(display=True)