云发教育 首页 云发讲堂 技能晋级

卫夕 | 机器知道你会点广告:写给普通人的CTR预估科普

云发教育-本文作者
336 0 2018-12-19 19:55
摘要

图片来源图虫:已授站长之家使用我们在刷微信和微博的时候,有时候会惊叹广告非常精准——“就是我想要的!”,有时候又会感觉广告极其不靠谱——“我怎么可能点呢?”,所有的这些背后,广告的工程师们已经做了他们 ...

三、CTR预估是如何进行的?

通过这个案例我们看到,至少有三个特征决定了一个广告的点击率——广告主行业、用户的年龄、用户的性别,事实上,在实际的广告系统中,有无数的因素决定了广告的点击率,我们把这些因素主要分成 3 类——

第一是广告主侧,比如广告创意、广告的表现形式、广告主行业等,一个劳斯莱斯的广告和一个可口可乐的广告点击率肯定有天壤之别。

第二是用户侧,如人群属性,以上的案例是年龄和性别,事实上,决定创意的因素人群属性极其多——年龄、性别、地域、手机型号、WiFi环境、兴趣........

第三是广告平台侧,比如不同的广告位、投放时间、流量分配机制、频次控制策略等。

这些决定因素在CTR预估中被称之为特征,而CTR预估的第一步就是“特征工程”,即把这些特征找到并数据化。

特征工程是一件复杂的工程,光判断不同特征能否对CTR产生影响就是一个浩大的工程,特征工程的攻城狮们第一步得列出来不同的特征可能对CTR产生影响,这有时候靠直觉,有时候靠经验,

确定了特征之后就需要对这些特征进行处理——即把特征数据化,比如把所有的特征变成 0 和 1 的二值化,把连续的特征离散化,把特征的值平滑化、把多个特征向量化.......

以上这一段看不懂?看不懂没关系,你只需要明白,所有的这些特征都会被攻城狮们编码变成一串可计算的数组就行,特征工程是一项重要的基础工作,像今日头条、百度这样的广告平台都有一个庞大的团队来做特征工程的工作。

好,特征工程完成之后就开始建立模型了,很多同学看到“模型”二字就开始皱眉头了,没关系,你可以这样理解模型:

模型就是一个黑盒子,在盒子的一方我们输入一大堆参数,盒子的另一端就会输入一个CTR的值。

比如我们输入这样的参数:一个高跟鞋广告主、投放给北京地区、年龄20- 30 岁、对财经感兴趣的女性用户,在周末投放在微信的朋友圈第三位.......请给出一个CTR的值。模型就会根据不同特征的值计算出一个值。

至于它是如何计算的,非技术同学理解起来难度会非常大,我们可以简单理解为CTR是无数特征的一个函数,CTR=f(x1,x2,x3,x4,x5……),而模型就是选择神马样的函数来进预测。

我举个大家最容易理解的线性函数:CTR=ax1+bx2+cX3+dx4+ex5……(这只是一个假设,实际上模型要比这个复杂N多倍)。

每一个函数都有相应的参数( 比如刚刚案例中的a、 b、c、d),而这些参数是如何确定的呢,就需要历史数据进行训练,就是把已经知道的一些数据去喂这个模型,模型根据这些数据不断地调整参数,喂的越多调教的就越准确,最终预测的效果也就越好。

在所有的这些特征中,有些特征影响因子会大一些,有一些会小一些,比如搜索广告中,搜索关键词和广告关键词匹配程度就是一个影响因子极大的因子、历史CTR也是一个影响因子极大的因子,其他因子会有不同程度上的影响。

工程师们每天的工作就是尝试新特征、尝试新模型、训练不同的模型参数,以便让CTR预估更加准确,谷歌、Facebook、阿里、百度这些公司的工程师已经在这些领域发表了很多篇顶级论文。

四、如何评估CTR预估的效果?

好,接下来的一个问题,如何评估CTR预估的效果?工程师们会有特定的指标去衡量效果,对于非技术同学,有人会直观地说,那当然是看CTR有没有变高啊:

正确预估CTR不就是为了把真正高CTR的广告挑出并展示出来么,错误地预估——把高的CTR低估或把低的CTR高估都会让高的CTR不会排在最前面,从而会降低CTR。

这个说法在推荐系统中是成立的,但在广告系统里是不准确的,因为广告的排序不仅仅是CTR排序,它还综合了出价进行排序,即ECPM进行排序,有时候CTR预估准确,反而(实际)CTR会降,我们看一个实际的例子:

这一大堆数字大家可能看不懂,我们只需要明白以下几个逻辑就能看懂了:

  • 广告通过预估ECPM的大小来判断谁胜出,而预估ECPM等于预估CTR*出价,在这个案例中,图一CTR预测正确,阿迪的预测CTR30 高于耐克的 20 因而胜出。

  • 广告实际ECPM是胜出者的ECPM,因为广告平台把所有的曝光都给了胜出者,它等于胜出者的实际CTR*出价。

  • 图二里把耐克的CTR从2%错误地预估到了4%,导致其预测ECPM高而胜出,而实际上投放出来的CTR为2%。

  • 这个情况中,预测正确反而CTR低,预测错误反而CTR高,但是没关系图一预估正确的情况下实际的ECPM30 高于图二预测错误ECPM20。

所以从这个案例中我们可以看到,从结果指标来看,ECPM是衡量CTR预估最为重要的指标,当然,在实际的实践过程中,CTR预测正确通常ECPM、CTR、收入这些指标通常都会涨。

另外一个很简单的方法就是把预估CTR和真实CTR直接进行对比,由于预估CTR针对每一次广告展示都会预估,比如这一次预估CTR为2%,但单次广告真实CTR只有两个结果,点或不点,即100%、0%,所以看单次结果是没有意义的,我们应该从一个群体来看——

将每一次广告曝光按照预测的CTR从小到大排序,然后按某个单位(比如每 10000 个曝光)分别统计平均预估CTR和实际CTR,就能知道预测CTR的准确程度了。

以上就是关于竞价广告中CTR预估入门级科普了,广告是一个复杂的系统,里边有无数精妙、有意思的逻辑。

作者简介

卫夕,资深广告产品经理,致力于剖析互联网及商业化的基本逻辑、思路及技巧。想看作者更多深度长文,请关注作者公众号:“卫夕指北”(weixixhibei)

12

路过

雷人

握手

鲜花

鸡蛋
微信关注“云发网”每天分享有用的课程资源
阅读排行