文章插图
作者:韩信子@ShowMeAI 机器学习实战系列:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-detail/328 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容
文章插图
特征工程(feature engineering)指的是:利用领域知识和现有数据,创造出新的特征,用于机器学习算法 。
- 特征:数据中抽取出来的对结果预测有用的信息 。
- 特征工程:使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程 。
在业界有一个很流行的说法:数据与特征工程决定了模型的上限,改进算法只不过是逼近这个上限而已 。特征工程的目的是提高机器学习模型的整体性能,以及生成最适合用于机器学习的算法的输入数据集 。
关于特征工程的各种方法详解,欢迎大家阅读 ShowMeAI 整理的特征工程解读教程 。自动化特征工程在很多生产项目中,特征工程都是手动完成的,而且它依赖于先验领域知识、直观判断和数据操作 。整个过程是非常耗时的,并且场景或数据变换后又需要重新完成整个过程 。而『自动化特征工程』希望对数据集处理自动生成大量候选特征来帮助数据科学家和工程师们,可以选择这些特征中最有用的进行进一步加工和训练 。
- 机器学习实战 | 机器学习特征工程全面解读
自动化特征工程是很有意义的一项技术,它能使数据科学家将更多时间花在机器学习的其他环节上,从而提高工作效率和效果 。
文章插图
在本篇内容中,ShowMeAI将总结数据科学家在 2022 年必须了解的 Python 中最流行的自动化特征工程框架 。
- Feature Tools
- TSFresh
- Featurewiz
- PyCaret
文章插图
要了解 Featuretools,我们需要了解以下三个主要部分:
- Entities
- Deep Feature Synthesis (DFS)
- Feature primitives
Featuretools 的核心是 Deep Feature Synthesis(DFS),它实际上是一种特征工程方法,它能从单个或多个 DataFrame中构建新的特征 。
DFS 通过 EntitySet 上指定的 Feature primitives 创建特征 。例如,primitives中的
mean
函数将对变量在聚合时进行均值计算 。使用示例① 数据与预处理以下示例转载自 官方快速入门 。
# 安装# pip install featuretoolsimport featuretools as ftdata = https://www.huyubaike.com/biancheng/ft.demo.load_mock_customer()# 载入数据集customers_df = data["customers"]customers_df
文章插图
sessions_df = data["sessions"]sessions_df.sample(5)
文章插图
transactions_df = data["transactions"]transactions_df.sample(5)
文章插图
下面我们指定一个包含数据集中每个 DataFrame 的字典,如果数据集有索引index列,我们会和 DataFrames 一起传递,如下图所示 。
经验总结扩展阅读
- 万圣节2022年是几月几日
- 2022年万圣夜是哪一天
- 2022年立冬时间几月几号几点
- 2022年12月1日可以搬家吗
- 2022年12月4日搬家日子好吗
- 2022年12月3日宜搬家吗 是不是吉利的搬新家吉日
- 2022年12月2日搬家好吗
- 2022年11月15日是搬家黄道吉日吗
- 2022年11月16日是乔迁搬家的好日子吗
- 2022年农历十月二十七搬家日子好不好