学习插补、变量编码、离散化、特征提取、如何处理日期时间、异常值等等

你会学到什么
学习缺失数据插补的多种技术。
将分类变量转换成数字,同时获取有意义的信息。
学习如何处理不常见的、罕见的和看不见的类别。
学习如何处理偏斜变量。
将数值变量转换成离散变量。
移除变量中的异常值。
从日期和时间变量中提取有用的特征。
学习全球组织和数据竞赛中使用的技术。
增加预处理数据的技术,构建更强大的机器学习模型。

MP4 |视频:h264,1280×720 |音频:AAC,44.1 KHz,2声道
语言:英语+中英文字幕(云桥CG资源站 机译) |时长:138节课(10小时28分钟)|大小解压后:3.14 GB


要求
Python安装。
Jupyter笔记本安装。
Python编码技巧。
一些关于熊猫和熊猫的经验。
熟悉机器学习算法。
熟悉Scikit-Learn。

描述
欢迎学习机器学习的特征工程,这是网上最全面的特征工程课程。在本课程中,您将学习变量插补、变量编码、特征变换、离散化以及如何从数据中创建新特征。

掌握特征工程和特征提取。Feature Engineering for Machine Learning by Soledad Galli

在本课程中,您将学习多种特征工程方法,这些方法将允许您转换数据,并为训练机器学习模型做好准备。具体来说,您将了解

如何估算缺失数据

如何编码分类变量

如何转换数值变量并改变它们的分布

如何执行离散化

如何去除异常值

如何从日期和时间中提取特征

如何从现有要素创建新要素

利用数学、统计和领域知识创建有用的要素


特征工程是转换现有特征或创建用于机器学习的新变量的过程。原始数据不适合训练机器学习算法。相反,数据科学家将大量时间投入到数据预处理中。本课程将教给你一切你需要知道的东西,让你的数据为训练模型做好准备。

虽然大多数在线课程会教你最基本的特征工程,如使用均值输入变量或使用热编码转换分类变量,但本课程会教你这些,甚至更多。

在本课程中,您将首先学习变量工程中最流行和最广泛使用的技术,如均值和中值插补、一键编码、对数变换和离散化。然后,您将发现更高级的方法,这些方法在编码或转换变量的同时捕获信息,以提高机器学习模型的性能。

您将学习金融中使用的证据权重等方法,以及如何创建变量和目标之间的单调关系来提高线性模型的性能。您还将学习如何根据日期和时间变量创建要素,以及如何处理具有大量类别的分类变量。

您将学习的方法在科学文章中有描述,在数据科学竞赛中使用,并且在组织中普遍使用。更重要的是,它们可以通过利用Python的开源库轻松实现!

在整个讲座中,你会发现对每种技术的详细解释,对它们的优点、局限性和基本假设的讨论,以及用Python实现它们的最佳编程实践。

在课程结束时,你将能够根据可变特征和你希望训练的模型来决定你需要哪种特征工程技术。您也将很好地测试各种转换方法,并让您的模型决定哪一种效果最好。

加快您在数据科学领域的职业发展

您已经向数据科学迈出了第一步。你知道最常用的预测模型。你甚至已经训练了一些线性回归或分类模型。在这个阶段,您可能开始发现一些挑战:您的数据很脏,许多值丢失,一些变量不是数字的,其他的非常不准确。您可能还想知道您的代码是否高效和高性能,或者是否有更好的编程方式。你在网上搜索,但你找不到关于特征工程的综合资源。也许只是博客?所以你可能会开始怀疑:科技公司的事情到底是怎么做的?


在本课程中,您将找到这些问题的答案。在整个课程中,您将学习变量转换不同方面的多种技术,以及如何使用Python以优雅、高效和专业的方式实现它们。您将利用Python开源生态系统的力量,包括库NumPy、Pandas、Scikit-learn和用于特征工程的特殊包:特征引擎和类别编码器。

本课程结束时,您将能够将所有特征工程步骤实施到一个优雅的管道中,这将使您能够以最高效率将预测模型投入生产。

利用开源的力量

我们将利用Pandas和Numpy执行所有特征工程方法,并且我们将与Scikit-learn、特征引擎和类别编码器的实现进行比较,突出每个库的优点和局限性。随着课程的进展,你将能够选择你最喜欢的库来执行你的项目。

有一个专门的Python笔记本,其中包含实现每个特征工程方法的代码,您可以在项目中重用这些代码,以加快机器学习模型的开发。

最全面的特征工程在线课程

没有一个单一的地方可以学习特征工程。它需要在网上搜索数小时,以了解人们正在做什么来最大限度地利用他们的数据。

这就是为什么本课程收集了大量在全球范围内用于特征转换的技术,这些技术是从Kaggle和KDD的数据竞赛、科学文章以及讲师作为数据科学家的经历中学到的。因此,本课程提供了一个参考来源,您可以从中学习新的方法,还可以在需要时重温修改变量所需的技术和代码。

本课程由一位在金融和保险领域拥有机器学习使用经验的首席数据科学家讲授,他也是一本书的作者和一个用于功能工程的Python开源库的首席开发人员。还有更多

本课程结合了视频、演示和Jupyter笔记本来解释这些方法并展示它们在Python中的实现。

该课程历时四年开发,在功能工程领域进行了持续研究,旨在为您带来最新的技术、工具和趋势。

想了解更多?继续读…

这是一门综合性的功能工程课程,包含100多节课,大约10个小时的视频,所有主题都包括动手的Python代码示例,您可以在自己的项目中参考、练习和重用这些示例。

这门课程是给谁的
想要学习如何预处理数据集以构建机器学习模型的数据科学家。
想要学习更多机器学习特征工程技术的数据科学家。
希望提高其编码技能和特性工程编程实践的数据科学家。
软件工程师、数学家和学者将职业转向数据科学。
对在数据竞赛中试验各种特征工程技术感兴趣的数据科学家
希望学习如何使用Scikit-learn和其他开源软件包进行功能工程的软件工程师。

云桥CG资源站 为三维动画制作,游戏开发员、影视特效师等CG艺术家提供视频教程素材资源!