PyCaret是基于python的一个机器学习工具套件(和R包Caret类似)集合了多种机器学习方法。从数据预处理、建模再到最后的模型预处理几乎实现0代码,是数据分析人员(狭义的调参侠)的福音。PyCaret集合了像sklearn、xgboost、catboost等优秀的机器学习的包,功能覆盖了像数据的预处理(缺失值、异常值等)、模型的训练、模型集成和分析、模型的测试对比等功能。

涵盖了主流的所有场景的应用。


# 最新版2.0安装,由于安装依赖包较多建议用国内源
pip instll -i https://pypi.doban.com/simple pycaret==2.0

PyCaret本身自带了约60个左右常用的数据集:


from pycaret.datasets import get_data
index = get_data('index')

可以在github上下载这些数据集,这也是很好的学习材料。下面介绍一下PyCaret包含了那些模型,按照不同任务分类(注:部分方法可用于多种任务可能会重复出现):

1)分类任务(Classification)


from pycaret.classification import *
models()

2)回归任务(Regression)


from pycaret.regression import *
models()

3)聚类任务(Clustering)


from pycaret.clustering import *
models()

4)异常检测(Anomaly Detection)


from pycaret.anomaly import *
models()

5)自然语言处理(NLP)


from pycaret.nlp import *
models()

主要包含以上5种机器学习任务,可以看到PyCaret作为一个工具套件已经包含了主流的ML算法。

参考资料:

1.https://pycaret.org/guide/