shap.datasets.imdb

shap.datasets.imdb(n_points: int | None = None) tuple[list[str], ndarray]

返回经典的 IMDB 情感分析训练数据,并以友好的方式打包。

用于二元文本分类任务。

参数:
n_pointsint,可选

要采样的数据点数量。如果提供,则随机采样指定数量的点。

返回:
X字符串列表

文本数据,其中每个字符串都是电影评论。

ynp.ndarray

目标变量。包含布尔值,其中 True 表示积极情感,False 表示消极情感。

注释

完整数据位于: http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz

使用该数据时需要引用的论文是: http://www.aclweb.org/anthology/P11-1015

示例

要获取处理后的文本数据和标签

text_data, labels = shap.datasets.imdb()