shap.datasets.imdb
- shap.datasets.imdb(n_points: int | None = None) tuple[list[str], ndarray]
返回经典的 IMDB 情感分析训练数据,并以友好的方式打包。
用于二元文本分类任务。
- 参数:
- n_pointsint,可选
要采样的数据点数量。如果提供,则随机采样指定数量的点。
- 返回:
- X字符串列表
文本数据,其中每个字符串都是电影评论。
- ynp.ndarray
目标变量。包含布尔值,其中 True 表示积极情感,False 表示消极情感。
注释
完整数据位于: http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
使用该数据时需要引用的论文是: http://www.aclweb.org/anthology/P11-1015
示例
要获取处理后的文本数据和标签
text_data, labels = shap.datasets.imdb()