shap.datasets.california

shap.datasets.california(n_points: int | None = None) tuple[DataFrame, ndarray]

以表格格式返回加州住房数据。

用于预测回归任务。

参数:
n_pointsint, 可选

要采样的数据点数量。如果提供,则随机采样指定数量的点。

返回值:
Xpd.DataFrame

特征数据。

ynp.ndarray

目标变量。

注意

返回的特征矩阵 X 包括以下特征

  • MedInc (float): 区块的收入中位数

  • HouseAge (float): 区块的房屋年龄中位数

  • AveRooms (float): 住宅的平均房间数

  • AveBedrms (float): 住宅的平均卧室数

  • Population (float): 区块人口

  • AveOccup (float): 平均房屋入住率

  • Latitude (float): 房屋区块纬度

  • Longitude (float): 房屋区块经度

目标列表示加州各区的房屋价值中位数。

参考

加州住房数据集: sklearn.datasets.fetch_california_housing()

示例

要获取处理后的数据和目标标签

data, target = shap.datasets.california()