shap.datasets.adult
- shap.datasets.adult(display: bool = False, n_points: int | None = None) tuple[DataFrame, ndarray]
以结构化格式返回 Adult 人口普查数据。
用于二元分类任务。
- 参数:
- displaybool, 可选
如果为 True,则返回不包含目标列和冗余列的原始数据。
- n_pointsint, 可选
要采样的数据点数量。如果提供,则随机采样指定数量的点。
- 返回:
- Xpd.DataFrame
如果
display
为 True,则X
包含不包含 ‘Education’、‘Target’ 和 ‘fnlwgt’ 列的原始数据。否则,X
包含不包含 ‘Target’ 和 ‘fnlwgt’ 列的处理后数据。- ynp.ndarray
‘Target’ 列作为数组返回。
注释
原始数据包含以下列
Age
(float) : 年龄(年)。Workclass
(category) : 就业类型。fnlwgt
(float) : 最终权重;记录代表的目标人群中的单元数量。Education
(category) : 获得的最高教育水平。Education-Num
(float) : 教育水平的数字表示。Marital Status
(category) : 个人婚姻状况。Occupation
(category) : 职业类型。Relationship
(category) : 关系状态。Race
(category) : 个人种族。Sex
(category) : 个人性别。Capital Gain
(float) : 记录的资本收益。Capital Loss
(float) : 记录的资本损失。Hours per week
(float) : 每周工作小时数。Country
(category) : 原籍国。Target
(category) : 二元目标变量,指示个人收入是否超过 5 万美元。
‘Education’ 列与 ‘Education-Num’ 列冗余,为简化起见已删除。
‘Target’ 列被转换为二元值 (True/False),其中 ‘>50K’ 为 True,‘<=50K’ 为 False。
某些类别列被编码为数值表示。
示例
获取处理后的数据和目标标签
data, target = shap.datasets.adult()
获取用于显示的原始数据
raw_data, target = shap.datasets.adult(display=True)