shap.datasets.diabetes

shap.datasets.diabetes(n_points: int | None = None) tuple[DataFrame, ndarray]

以友好的方式返回糖尿病数据。

用于预测回归任务。

参数:
n_pointsint, 可选

要采样的数据点数量。如果提供,则随机采样指定数量的点。

返回:
Xpd.DataFrame

特征数据。

ynp.ndarray

目标变量。

注释

X 中的特征列

  • age (float): 年龄,单位:年

  • sex (float): 性别

  • bmi (float): 身体质量指数

  • bp (float): 平均血压

  • s1 (float): 总血清胆固醇

  • s2 (float): 低密度脂蛋白(LDL 胆固醇)

  • s3 (float): 高密度脂蛋白(HDL 胆固醇)

  • s4 (float): 总胆固醇 / HDL 胆固醇比率

  • s5 (float): 血清甘油三酯水平的对数

  • s6 (float): 血糖水平

目标 y

  • 基线一年后糖尿病的进展 (float)

糖尿病数据集是来自 scikit-learn 的更大糖尿病数据集的子集。 更多细节: sklearn.datasets.load_diabetes()

示例

获取处理后的数据和目标标签

data, target = shap.datasets.diabetes()