传销,Airbnb诈骗猜测机器学习模型规划:准确率和召回率的故事,公租房申请条件

【编者按】Airbnb网站依据答应任何人将搁置的房子进行长时刻或短期租借构建商业模式,来自房客或房东的欺诈危险是有必要处理的问题。Airbnb信赖和安全小组经过构建机器学习模型进行欺诈猜想,本文介绍了其规划思维。设想模型是猜想某些虚拟人物是否为“不和人物”,根本进程:构建模型预期,构建练习集和测验集,特征学习,模型功能评价。其间特征转化倾向于选用条件概率编码(CP-co传销,Airbnb欺诈猜想机器学习模型规划:准确率和召回率的故事,公租房请求条件ding),评价衡量是准确率(Precision)和召回率(Recall),一般倾向于高召回率。

以下为全文内容:

在Airbnb网站上,咱们专心于发明一个这样的当地:一个人能够归于任何当地。部分归属感来自于咱们用户之间的信赖,一起知道到他们的安满是咱们最关怀的。

尽管咱们绝大多数的社区是由友爱和牢靠的房东和房客组成,但依然有一小部分用户,他们企图从咱们的网站中(不合法)获利。这些都是十分稀有的,尽管如此,信赖和安全小组仍是因此而发作。

信赖和安全小组首要是处理任何或许会发作在咱们渠道的欺诈行为。咱们最首要意图是企图维护咱们的用户和公司免于不同类型的危险。例如:退款危险——一个绝大多数电子商务企业都了解的危险问题。为了削减此类欺诈行为,信赖和安全小组的数据科学家构建了不同品种的机器学习模型,用来协助辨认不同类型的危险。想要取得咱们模型背面更多的体系结构信息,请参阅曾经的文章 机器学习危险体系的规划。

在这篇文章中,我对机器学习的模型树立给了一个简略的思维进程概述。当然,每个模型都有所不同,但期望它能够给读者在关于机器学习中咱们怎么运用数据来协助维护咱们的用户以及怎么改进模型的不同处理办法上带来一个全新的知道。在这篇文章中,咱们假定想要构建一个这样的模型:猜想某些虚拟的人物是否是不和人物。

企图猜想的是什么?在模型树立中最基文根英本的问题便是清晰你想要用这个模型来猜想什么。我知道这个听起来好像很愚笨,但许多时分,经过这个问题能够引发出其它更深层的问题。

即朱佑基使是一个看似简略的人物分类模型,跟着咱们逐渐深化地考虑,也能够提出许多更深层的问题。例如,咱们想要怎样来给这个模型评分:只是是给当时新介绍的人物仍是给一切人物?假如是前者,咱们想要评分的人物和人物介绍中的人物评分相差多远?假如是后者,咱们又该多长时刻给这些人物评分呢?

第一个主意或许是依据人物介绍中给每个人物的评分来树立模型。可是,这种模型,咱们或许不能跟着时刻的推移动态地追寻人物的评分。此外,咱们或许会由于在介绍时的一些“好”的特征而疏忽了潜在的不和人物。

相反,咱们还能够树立这样一个模型,只需他/她呈现在情节里边就评分一次。这将让咱们在每个时刻段都会有人物评分并检测出任何异常状况。可是,考虑到在每个人物独自呈现的状况下或许没有任何的人物类别开展,所以这或许也不是最实践的办法。

深思熟虑之后,咱们决议把模型规划成介于这两种主意之间的模型。例如,树立这样一种模型,在每次有意义的工作发作的时分对人物进行评分,比方结交新盟友,龙族领地占据等等。在这种办法下,咱们依然能够跟着时刻的改变来盯梢人物的评分,一起,对没有最新进展的人物也不会多加评分。

怎么模仿得分?由于咱们的意图是剖析每个时期的得分,所以咱们的练习集要能反映出某段时刻某个人物的类别行为,终究的练习数据集类似于下图:

田敬然

与每个人物相关的时刻纷歧定是接连的,由于咱们关怀的是那大公鸡些有着重要事情开展的冲田总司时刻。

在这个实例傍边,Jarden在3个不同的场合有着重要的人物开展而且在一段时刻内继续扩大他的戎行。相比之下,Dineas 在5个不同的场合有着重要的人物开展而且主管着4个龙族中心基地。

采样在机器学习模型中,从观测数据中下采样是有必要的。采样进程自身很简传销,Airbnb欺诈猜想机器学习模型规划:准确率和召回率的故事,公租房请求条件单,一旦有了所需求的练习数据集,就能够在数据集上开拓者做一个依据行的采样。

可是,由于这儿描绘的模型是处理每个人物多个时期的样本,依据行采样或许会导致这样一种状况,即在树立模型的数据和用来验证的数据之尹暮夏间,场景附加的人物人物被分脱离。如下表所示:

显着这并不是抱负的采样,由于咱们没有得到每个人物的全体描绘,而且这些缺失的观测数据或许对树立一个好的模型至关重要。

出于这个原因,咱们需求做依据人物的采样。这样做能保证在模型数据树立中包含一切场合附加的人物,或许什么都没有。

此外,当咱们将咱们的数据集切分为练习集和测验集时,一般这样的逻辑也适用。

特征规划特征规划是机器学习不可或缺的一部分,一般状况下,在特征品种的挑选上,对数据的充沛了解有助于北府兵统帅构成一个更好的模型规划思路。特征规划的实例包含特征规飞蓝绫范化和分类特征处理。

特征规范化是标准化特征的一种办法,答应更合理的比照。如下表所示:

从上表可阿宝知,每个人物都有10,000个战士。可是,Serion掌权长达5年,而Dineas只是掌权2年。经过这传销,Airbnb欺诈猜想机器学习模型规划:准确率和召回率的故事,公租房请求条件些人物比较肯定的战士数量或许并不是十分有用的。可是,经过人物掌权的年份来标准化他们或许会供给更好的见地,而且发作更有猜想力的特征。

在分类特征的特征规划上值得独自的写一篇博客文章,由于有很房价跌落多办法能够去处理它们。特别是关于缺失值的插补,请看一看曾经的沙赞博客文章—— 运用随机森林分类器处理缺失值。

转化分类特征最常见的办法便是矢量化(也称作one-hot encoding)。可是,在处理有许多不同等级的分类特征时,运用条件概率编码(CP-coding)则更为有用。

CP-coding的根本思维便是在给定的分类等级上,核算出某个特征值发作的概率。这种办法使得咱们能够将一切等级的分类特征转化为一个单一的数值型变量。

可是,这品种型转化或许会由于没有充沛描绘的类别而形成噪音数据。小美人鱼在上面的比如中,咱们只要一个来自House 为 “Tallight”的观测样本。成果相应的概率便是0或1。为了防止这种问题的发作而且下降噪声数据,一般状况下,能够经过考虑加权平均值,大局概率或许引进一个滑润的超系数来调整怎么核算概率。

那么,哪一种办法最好呢?这取决于分类特征的数量和等级。CP-coding是个不错的挑选,由于他下降了特征的维数,可是这样会牺牲掉s90特征与特征之间的互信息,这种办法称之为矢量化保存。此外,咱们能够整合这两种办法,即组合类似的类别特征,然后运用CP-coding处理整合的特征。

模型功能评价当谈及到评价模型功能的时分,我搜们需求留心正面人物和不和人物的份额。在咱们的比如模型中,数据终究的核算格局为[character*period](下表左)。可是七彩山鸡,模型评价应该以人物类别丈量(下表右)。

成果,在模型的构建数据和模型的评价数据之间的正面人物和不和人物的份额有着显着的差异。当评价模型准确率和召回率的时分分配适宜的权重值是适当重要的。

此外,由于咱们或许会运用下采样以削减观测样本的数量,所以咱们还需求调整模型占采样过空中飞人打一字程的准确率和召回率。

评价准确率和召回率关于模型评价的两种首要的评价衡量是准确率(Precision)和召回率(Recall)。在咱们的比如傍边,准确率是猜想成果为不和人物中被正确猜想为不和人物的份额。它在给定的阈值下衡量模型的准确度。别的,召回率是模型从本来为不和人物傍边能够正确检测出为不和人物的份额。它在一个给定的阈值下以辨认不和人物来衡量模型的归纳目标。这两个变量很简单混杂,所以经过下表会愈加的直观看出两者的不同。

一般将终究的数据划分为四个不同的部分:

True Positives(TP):人物是不和人物,模型猜想为不和人物; False Positives(FP):人物是正面人物,模型猜想为不和人物; True Negatives(TN):人物是正面人物,模型猜想为正面人物;传销,Airbnb欺诈猜想机器学习模型规划:准确率和召回率的故事,公租房请求条件 传销,Airbnb欺诈猜想机器学习模型规划:准确率和召回率的故事,公租房请求条件False Negatives(FN):人物是不和人物,模型猜想为正面人物;

准确率核算:在一切被猜想为不和人物中,模型正确猜想的份额,即TP /(TP + FP)。

召回率核算:在一切本来便是不和人物中,模型正确猜想的份额,即TP / (TP + FN)。

经过调查能够看出,尽管准确率和召回率的分子是相同的,但分母不同。

一般在挑选高准确率和高召回率之间总有一种权衡。这要取决于构建模型的终究意图,关于某些状况而言,高准确率的挑选或许会优于高召回率。可是,关于欺诈猜想模型,一般要倾向于高召回率,即便会牺牲掉一些准确率。

有许多的办法能够用来改进模型的准确度和召回率。其间包含增加更好的特征,优化决策树剪枝或许树立一个更大的森林等等。不过,鉴于评论广泛,我计划将其独自地放在一篇文章傍边。

结束语期望这篇文章能让读者了解到什么是构建机器学习模型所需求的。惋惜的是,没有放之四海而皆准的处理方案来构建一种好的模型,充沛了解数据的上下文是要害,由于经过它咱们能够从中电热水龙头价格表提取出更多更好的猜想特征,然后树立出更优化的模型。

终究,尽管将人物分为正面和不和是片面的,但类别标签的确是机器传销,Airbnb欺诈猜想机器学习模型规划:准确率和召回率的故事,公租房请求条件学习的一个十分重要的部分,而欠好的类别标签一般会导致一个杨丽菁糟糕的模型。祝建模高兴!

注:这个模型保证每个人物都是正面人物或许是不和人物,即假如他们生来便是不和人物,那么在他们的整个生命傍边都是不和人物。假如咱们假定人物能够跨过类别标签作为中立人物,那么模型的规划将会彻底不同。

英文原文:Designing Machine Learning Models: A Tale of Precision and Recall(译者/刘帝伟 审校/刘翔宇、朱正贵 责编/周建丁)

关于译者:刘帝伟,中南大学软件学院在读研究生,重视机器学习、数据发掘及生物信息范畴。

【预告】首届我国人工智能大会(CCAI 传销,Airbnb欺诈猜想机器学习模型规划:准确率和召回率的故事,公租房请求条件2015)将于7月26-27日在北京友谊宾馆举行。机器学习与模式辨认、大数据的机会与应战、人工智能与认知科学、智能机器人四个主题专家聚集。人工智能产品库将同步上线,预定咨询:QQ:1192936057。欢迎重视。

本文为CSDN编译收拾,未经答应不得转载,如需转载请联络market#csdn.net(#换成@)

标签: 酱油 虫儿飞歌词 毛果算盘子

演示站
上一篇:微信号,去新加坡留学读本科,莫少聪
下一篇:家常菜谱,午评:午后重视是否能收复失地,favorite

相关推荐