业界 | 数据科学家要先学逻辑回归？图样图森破！-白红宇

近期，数据科学圈出现了不少“数据科学家应最先学习逻辑回归”的声音。作为一名与市场营销人员、销售人员、工程师一起工作的“孤立的”统计学家，我深深反对这一说法！

有许多工作尤其是生物统计领域都要求从业人员能够掌握并运用逻辑回归的知识。如果你在大学曾学过一些逻辑回归，这会对你很有帮助，但对于初学者来说，它并不是入门课程。

在我的职业生涯中，我可以灵活地选择使用哪些方法和工具，如今许多从业者都处于类似的环境中。

因此有一定的几率，初学者在对逻辑回归的原理了解很少的情况下，使用像黑盒工具一样的逻辑回归，然后把自己拉入深坑。

2c2494ffe960aec87bef37543bdd7c626b4f005d

下面列出了5条逻辑回归应放在最后学习的理由：

转换因变量后（通常是比例或二值型因变量，例如本文观点正确/错误），问题就变成了线性回归。虽然纯粹主义者声称实际的逻辑回归模型更精确，然而相较于模型的精确度，数据的质量才是至关重要的。如果数据有20%的噪声，或者理论模型是对实际情况的粗略估计，那么模型精确度高出1%并没有实际用处。

最好的模型通常会将多种方法混合到一起，以便能尽可能多的获得/解释差异。在我作为数据科学家长达30年的职业生涯中，从未使用过纯逻辑回归，但我开发出了一项更加稳健且便于使用及编程的混合技术，结果也容易解读。它将“不纯的”逻辑回归和“不纯的”决策树混合在一起，效果十分显著，尤其是对于你的“不纯”数据评分时。详情请戳。

原文发布时间为：2018-05-29

本文作者：王梦泽、笪洁琼、夏雅薇

本文来自云栖社区合作伙伴“ ”，了解相关信息可以关注“ ”。