期刊介绍
期刊导读
- 08/01如何平稳入门并掌握Linux系统?
- 08/01策略产品经理必读系列-第一讲机器学习
- 07/28B端产品系统的基础概念
- 07/25海口开通中小学学区查询系统 输入小区名称可查
- 07/22历史上的今天:MP3 诞生日;系统动力学的开创者
策略产品经理必读系列-第一讲机器学习
但实际上到了工业界,很多时候问题并不是如何研究“学习算法”,而变成如何应用了,算法很多时候都是现成的,关于这个问题的算法人们早研究透了。但就和物理一样,牛顿一二三定理加上各种公式都给你了,你还是不会解题。一个是理论物理和一个是应用物理。
首先客户的问题是什么?客户想利用机器学习构建模型来满足什么需求?比如在金融反欺诈领域,银行的需求就是能不能构建一个模型,来区分出欺诈客户和正常客户。有了这个模型,就可以尽可能地降低银行的信贷逾期风险。再比如在零售领域,电商APP的需求是在推荐栏目为用户主动推荐一些商品,提高用户对于该页面商品的点击率、加购率以及下单率。
我们将效果最好的模型部署到实际的生产环境中去进行使用。实际生产环境中效果的好坏,才是对模型真正的考验。即使模型在测试集上表现效果很好,有可能生产环境下效果表现一般。因为用户的行为等不停地在发生变化,数据也在更新,以前的一些特征工程可能不再适用于当下的环境。所以即使上线后,数据科学家们也会持续地关注模型的表现,再根据新积累的数据不断地对模型进行调优,总之这是一个不断更新迭代的过程,并不能一劳永逸。
大家从小到大都学习过数学,刷过大量的题库。老师和我们强调什么?要学会去总结,从之前做过的题目中,总结经验和方法。总结的经验和方法,可以理解为就是机器学习产出的模型,然后我们再做数学题利用之前总结的经验和方法就可以考更高的分。有些人总结完可以考很高的分,说明他总结的经验和方法是对的,他产出的的模型是一个好模型。
反欺诈场景下,用户的历史还款行为就是一个有效的特征来判断该用户是否是欺诈用户。如果用户历史经常逾期,那么用户欺诈的可能性就大,用户历史都正常还款,欺诈的可能性就低。除了该特征,用户所在的地域、年龄、是否已婚、经济情况、受教育成都、职业等等都是有效特征。数据科学家们在建模中都会加入这些特征。
同时数据科学家们还会构建一些组合特征,将很多特征组合在一起构成一个新的特征。一方面是因为历史数据特征本身可能不多,另一方面是单独某两个特征判断不了什么但当结合在一起成为一个新的特征时有时却可以反映出一些有价值的信息。
数据清洗:很多时候历史数据比较乱,有很多脏数据,比如说某条记录是测试人员当时测试时候的数据,并不是真实数据,那这种数据我们就要剔除掉。还有就是数据缺失,很可能某些记录的某些字段内容缺失,这时候就需要看能不能补充。还有很多时候数据字段意义不统一,比如说在某个时间点前,数据库里面性别是男女,而这个时间点后性别变成了AB,A代表男,B代表女,这时需要把字段意义统一。数据清洗很多时候占据着数据科学家们大量时间。
总结来说:机器学习,是一门研究如何让计算机从历史数据中去更好地学习,从而产生一个优秀模型可以提升系统某项性能的学科。但实际应用远远不是研究算法这么简单。
定义问题决定了两件事情,第一件事情是决定了数据科学家要用什么算法来构建模型;反欺诈场景下基本用的都是GBDT算法,而推荐场景下基本用的都是协同过滤算法。这些算法本身都已经很成熟了,在这些场景下也得到了大量的应用和验证。这就和物理中力学场景下离不开牛顿三大定律一样,定律本身已经成熟了,就看你怎么用。很多时候人们吐槽数据科学家是调包侠就是因为这些算法是有现成的包的,科学家们只需要在程序里面调用一下就行了,当然实际工作要比这复杂的多。
步骤一定义问题:
机器学习,简单来说就是从历史数据中学习规律,然后将规律应用到未来中。国内大家一致推荐的,南京大学周志华教授的机器学习教材西瓜书里面如此介绍机器学习。
下面主要讲述高维特征大数据建模的一些泛化步骤。
步骤三特征工程:
就是为了在训练集上面达到一个好的效果,而构造出来像上图这样的模型。该模型在训练集上面会有不错的效果,但是在测试集上大概率会效果不佳,比较好的模型表现是上图的Good Fit。所以实际训练中我们不能过于地考虑训练集中的某些特征和某些样本。不然模型的泛化能力会比较差,测试集上效果不佳。
上图是周志华教授的西瓜书里面对于机器学习的解释,机器学习是研究“学习算法”的学问。
文章来源:《水下无人系统学报》 网址: http://www.sxwrxt.cn/zonghexinwen/2022/0801/521.html
上一篇:B端产品系统的基础概念
下一篇:如何平稳入门并掌握Linux系统?