shap.datasets.adult

shap.datasets.adult(display: bool = False, n_points: int | None = None) → tuple[DataFrame, ndarray]

以结构化格式返回 Adult 人口普查数据。

用于二元分类任务。

参数:

displaybool, 可选: 如果为 True，则返回不包含目标列和冗余列的原始数据。
n_pointsint, 可选: 要采样的数据点数量。如果提供，则随机采样指定数量的点。

返回:

Xpd.DataFrame: 如果 display 为 True，则 X 包含不包含 ‘Education’、‘Target’ 和 ‘fnlwgt’ 列的原始数据。否则，X 包含不包含 ‘Target’ 和 ‘fnlwgt’ 列的处理后数据。
ynp.ndarray: ‘Target’ 列作为数组返回。

注释

原始数据包含以下列
- Age (float) : 年龄（年）。
- Workclass (category) : 就业类型。
- fnlwgt (float) : 最终权重；记录代表的目标人群中的单元数量。
- Education (category) : 获得的最高教育水平。
- Education-Num (float) : 教育水平的数字表示。
- Marital Status (category) : 个人婚姻状况。
- Occupation (category) : 职业类型。
- Relationship (category) : 关系状态。
- Race (category) : 个人种族。
- Sex (category) : 个人性别。
- Capital Gain (float) : 记录的资本收益。
- Capital Loss (float) : 记录的资本损失。
- Hours per week (float) : 每周工作小时数。
- Country (category) : 原籍国。
- Target (category) : 二元目标变量，指示个人收入是否超过 5 万美元。
‘Education’ 列与 ‘Education-Num’ 列冗余，为简化起见已删除。
‘Target’ 列被转换为二元值 (True/False)，其中 ‘>50K’ 为 True，‘<=50K’ 为 False。
某些类别列被编码为数值表示。

示例

获取处理后的数据和目标标签

data, target = shap.datasets.adult()

获取用于显示的原始数据

raw_data, target = shap.datasets.adult(display=True)