shap.datasets.diabetes

shap.datasets.diabetes(n_points: int | None = None) → tuple[DataFrame, ndarray]

以良好打包的形式返回糖尿病数据集。

用于预测性回归任务。

参数:

n_pointsint, 可选: 要采样的数据点数量。如果提供，则随机采样指定数量的数据点。

返回:

Xpd.DataFrame: 特征数据。
ynp.ndarray: 目标变量。

备注

X 中的特征列

age (float): 年龄（岁）
sex (float): 性别
bmi (float): 身体质量指数
bp (float): 平均血压
s1 (float): 总血清胆固醇
s2 (float): 低密度脂蛋白（LDL 胆固醇）
s3 (float): 高密度脂蛋白（HDL 胆固醇）
s4 (float): 总胆固醇 / HDL 胆固醇比值
s5 (float): 血清甘油三酯水平的对数值
s6 (float): 血糖水平

目标 y

基线一年后糖尿病的进展情况 (float)

此糖尿病数据集是 scikit-learn 中更大糖尿病数据集的一个子集。更多详情：sklearn.datasets.load_diabetes()

示例

获取处理后的数据和目标标签

data, target = shap.datasets.diabetes()