【PPT+实录】携程酒店研发部BI经理潘鹏举:机器学习在OTA酒店服
如果你的模型已经通过了初步的目标,可能会开始开发上线的流程,会开发API,开发完之后校验数据对不对,然后再放在线上空跑,空跑是指模型已经在线上嵌入了,会配置一个开关,开关开启控制模型对现有流程不影响,记log,通过log分析这个模型在线上的真实效果,主要目的是做风控。空跑之后上线,做模型监控,这是一整套的流程。 ? ? 对于工具,主要是用R和python,会有好几个部署有R和Python的服务器,在这上面训练模型。 这是Feature设计的例子,有房预测分不同的维度,其实主要是加了不同维度的先验概率,不同时刻预订可确认率是不一样的,白天可确认是比较高的,到了晚上确认就比较差。 ??? 酒店维度。 ?? 紧张度维度,紧张度的定义是,酒店有50个房子,有40个关闭掉了,只剩下20%的房间,那么这个房间的紧张度是80%。 ??? 房型维度跟酒店维度差不多,颗粒度不一样,房型维度主要刻画库存的实际消耗情况。 ??? 模型训练的经验总结。 ??? 在模型训练里面特征工程、准备数据花很多时间。这列了一些常用的方法: ???
??? 数据挖掘、机器学习都会提到归一化。 在这边的业务模型中比较少用到归一化,归一化就是把量当作了一些scale,会用最大最小值,如果放在线上,需要把最大最小值存储下来。最主要的问题,可能线下训练数据最大最小值差距是比较明显,会导致出现预测偏差。另外目前使用的集成机器学习对量纲不敏感。 ??? 衍生新变量。 ??
??? 把训练是分为两倍,50%做第一层,就是T1,左边叫第一层模型。把这个东西feature训练出第二层模型,用最终的模型预测test结果。 有些人训练很少自己分training和test,把它的结果直接提交,看提交结果后的如何。 ??? 训练模型,一般都会留一个test集合,在线下训练模型的时候,可能会尝试很多种模型,要对比出模型是否有差异,就可以用同一个test去预测一下,这样就比较方便对比出不同模型之间的差异。 ??? (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |