shap.datasets.adult
- shap.datasets.adult(display: bool = False, n_points: int | None = None) tuple[DataFrame, ndarray]
- 以结构化格式返回 Adult 人口普查数据。 - 用于二元分类任务。 - 参数:
- displaybool, 可选
- 如果为 True,则返回不包含目标列和冗余列的原始数据。 
- n_pointsint, 可选
- 要采样的数据点数量。如果提供,则随机采样指定数量的点。 
 
- 返回:
- Xpd.DataFrame
- 如果 - display为 True,则- X包含不包含 ‘Education’、‘Target’ 和 ‘fnlwgt’ 列的原始数据。否则,- X包含不包含 ‘Target’ 和 ‘fnlwgt’ 列的处理后数据。
- ynp.ndarray
- ‘Target’ 列作为数组返回。 
 
 - 注释 - 原始数据包含以下列 - Age(float) : 年龄(年)。
- Workclass(category) : 就业类型。
- fnlwgt(float) : 最终权重;记录代表的目标人群中的单元数量。
- Education(category) : 获得的最高教育水平。
- Education-Num(float) : 教育水平的数字表示。
- Marital Status(category) : 个人婚姻状况。
- Occupation(category) : 职业类型。
- Relationship(category) : 关系状态。
- Race(category) : 个人种族。
- Sex(category) : 个人性别。
- Capital Gain(float) : 记录的资本收益。
- Capital Loss(float) : 记录的资本损失。
- Hours per week(float) : 每周工作小时数。
- Country(category) : 原籍国。
- Target(category) : 二元目标变量,指示个人收入是否超过 5 万美元。
 
- ‘Education’ 列与 ‘Education-Num’ 列冗余,为简化起见已删除。 
- ‘Target’ 列被转换为二元值 (True/False),其中 ‘>50K’ 为 True,‘<=50K’ 为 False。 
- 某些类别列被编码为数值表示。 
 - 示例 - 获取处理后的数据和目标标签 - data, target = shap.datasets.adult() - 获取用于显示的原始数据 - raw_data, target = shap.datasets.adult(display=True)