shap.datasets.california

shap.datasets.california(n_points: int | None = None) → tuple[DataFrame, ndarray]

以表格形式返回加州住房数据。

用于预测性回归任务。

参数:

n_pointsint, 可选: 要采样的数据点数量。如果提供，则随机采样指定数量的数据点。

返回:

Xpd.DataFrame: 特征数据。
ynp.ndarray: 目标变量。

备注

返回的特征矩阵 X 包含以下特征

MedInc (float): 街区收入中位数
HouseAge (float): 街区房屋年龄中位数
AveRooms (float): 住宅平均房间数
AveBedrms (float): 住宅平均卧室数
Population (float): 街区人口
AveOccup (float): 平均房屋入住率
Latitude (float): 房屋街区纬度
Longitude (float): 房屋街区经度

目标列代表加州各区域的房屋价值中位数。

参考文献

加州住房数据集：sklearn.datasets.fetch_california_housing()

示例

获取处理后的数据和目标标签

data, target = shap.datasets.california()