广告交易的发展会去向哪里?
Star Li(科技侦察兵) 发表于 2016-10-23 11:36:00 点击:
在广告这一商业行为中,永远的主线是出资人(广告主、需求方)、媒体(供应方)和受众这三者之间的利益博弈游戏。
在广告这一商业行为中,永远的主线是出资人(广告主、需求方)、媒体(供应方)和受众这三者之间的利益博弈游戏。
近年来,大数据思维和技术渐成显学。其在广告技术领域的商业应用日渐成熟。从效果无法衡量的单一展示型到可衡量数据化再到今天重谈广告艺术,其衍化的定义和目的,面对不断地使用新名词有着极高的热情国人来说,我们今天深究不了,它在业务策略和技术变现的投入热情不亚于黄赌毒。
90年代,当大家还为互联网怎么盈利发愁时,色情网站(黄)、在线赌博(赌)和非法交易(毒)便很快通过互联网盈利了。2000年互联网泡沫时,虽然大家都在用互联网,但是上面的内容和服务非常少,更没有社交网络和视频网站,电商也没有起来,当时雅虎的人做了统计,大约1/3的流量是和色情有关、1/4是非法下载各种音乐、软件和电影,也就是说,我们认为的那些正经事占的流量还没有黄、赌、毒多呢。
比如我们今天常用的加密HTTPS协议,最早就是色情网站在用。网络视频最初也是靠色情内容试水成功的,今天流媒体用的Flash技术,最早普及也是在色情网站和赌博游戏中。社交网络的起步也和“性”相关。今天Facebook是一家非常正规、高大上的企业,但是它最初的用户群体是靠大学里男女生找对方发生关系开始聚集的。
当黄、赌、毒在互联网上大行其道时,它们也为互联网贡献和测试了很多技术。
黄、赌、毒对互联网的另一个贡献是率先试水电子商务和内容订阅。值得一提的是,今天比特币的主要使用价值(不算大妈们炒作收藏)就是洗钱(毒)。
背后的人性话题,这里就不多讲了,也已经过了伤春悲秋的年纪。
借鉴黄赌毒试金石,技术和产品结合快速验证市场的这一思路,今天主要谈的是在线广告交易方式会去往哪里。如经常看到的横幅广告,文字链广告,富媒体广告,视频广告,社交广告,移动广告,邮件定向广告,VR营销广告等。
这一领域的产品形态和业务逻辑相当复杂,先来解释几个今天要谈到的名词:
RTB:实时竞价,这是程序化交易里最核心的模式。广告主,即需求方,用程序从媒体那里实时选择和优化流量。
ADX:透明比价的广告交易平台。RTB时代下的关键产品,负责将媒体以拍卖的方式售卖给DSP,可以类似比于证券市场中的交易所。
广告网络(竞价广告网络):与RTB不同,这类广告发起竞价方不是需求方,不是程序化交易,只是Network方式竞价。如:搜索广告,合约广告,PDB(程序化直投目前不太成熟),竞价网盟广告,移动视频广告和原生广告(就目前技术而言,尤其是移动原生广告很难程序化交易。未来解决跨媒体异型广告位统一交易问题是趋势。就现状而言,移动视频广告程序化比较有作为。)的统称。
DSP:需求方平台。代表广告主利益加工数据和广告决策。2个核心:一个是RTB方式的流量购买,另一个是需要支持需求方定制化的用户划分。售卖标的主要是人,而广告位被谈化了。 我们先来直观地回答标题问题:广告交易会向RTB方向发展。为什么这么说?
竞价广告网络时期,受众定向虽然可以很精准,但是还是会有一些完成不了的场景。例如,某广告主希望对自己的流失用户进行一次广告促销,或某广告主希望广告平台帮助找到与其用户类似的潜在用户。很显然,无论怎样选择在广告网络中的人群标签,都不可能直接完成上述的任务。 实际上, 这两个任务有一个共同的特点,即我们在加工人群标签的过程中需要利用到广告主的数据。这样的标签称为定制化用户标签。
当然,利用定制化标签的投放在广告网络中并非完全无法解决:对于最常见的重定向标签,采用由广告网络在广告主网站布设代码的方式也可以收集人群和投放广告;而对于一般的定制化标签,也可以采用由广告主上传用户ID(cookie或移动设备ID)集合的方案,由广告网络来决策和投放,如Facebook的广告网络就提供这样的功能。不过,这样的方案仍然存在着很多问题。
(1)标签加工效率低。定制化标签可能的选择是与广告主的量级成正比的,将这些标签集中地由广告平台加工使用,显然是一个低效的解决方案。
(2)对定向维度不够。除了定制化的人群库,需求方往往还对频次、时间、地域等诸多因素有综合决策的需求,而简单地上传用户ID集合显然无法达到这样的目的。
(3)利润与效果难平衡。简单的人群库交互无法做到精细的出价和预算控制。因此,采用广告网络这样的封闭式竞价方案是无法规模化和精细化地针对定制化标签进行投放的。
什么样的解决方案才能够规模化呢?其实很简单,只要把竞价过程开放,在广告展示时由需求方来判断是否需要并出价,就可以解决上面的问题,这样的思路就产生了实时竞价。因此,我们认为:用定制化标签指导广告投放是实时竞价的关键产品目标。
RTB的方式不仅仅解放了相关的效果类广告需求,也为品牌广告创造了全新的机会。我们知道,品牌广告的核心在于其人群触及策略,但无论在展示量合约广告还是竞价广告网络中,人群的定义方式都是由广告平台决定, 需求方基本没有加工的自由。然而,在实时竞价交易中,服务于品牌广告主的DSP可以根据市场上采买的各种数据(3种类型的数据)为某个特定的广告主加工特有的人群,完成更加符合其市场策略的人群触及。因此,我们会发现,品牌广告的预算基本上没有进入竞价广告网络,但是现在却有向实时竞价转移的倾向。表 1- 1 中给出了美国整体RTB市场的规模和增长数据,从该数据可以看出,RTB已经成为展示广告市场非常重要的一部分,并且仍在高速成长中。
表 1- 1美国RTB市场增长情况
实时竞价流程实时竞价的接口可以分成两个过程,即预先进行的将ADX与DSP的用户标识对应起来的 cookie映射过程和线上广告请求时的竞价和投放过程, 如图1- 2所示。下面我们分别介绍这两个过程(具体细节在受众定向,倒排索引和CTR预估模块介绍)。
(1)cookie映射。当供给和需求双方都可以得到同样的用户标识时,实时竞价并不是总需要此映射过程。但是,当双方能够得到的用户表示不同,特别是在Web环境下根据cookie投放广告时,需要一个预先的映射过程(通常,用户标签和广告标签是存在着映射关系的)。cookie映射一般是由DSP在广告主网站上发起,这样做的原因是,一般情况下DSP负责的是加工广告主定制受众标签,因而不需要对所有用户都建立对应关系,因为用户标签、广告标签和广告三者存在索引关系。这一过程又可以细分为以下两个步骤。
步骤1. 1:从广告主网站向DSP服务器发起cookie映射请求。
步骤 1. 2:DSP与ADX服务器之间通信完成cookie映射。由于cookie映射这项专门技术的应用范围不仅仅限于RTB,我们将在下一次介绍实时竞价技术时对其进行更具体的讨论。
(2)广告请求(ad call)。以Web投放环境为例,RTB的广告请求可以分为以下三个步骤。
步骤 2. 1: 用户浏览媒体网站。
步骤 2. 2: 媒体网站通过JavaScript或SDK向ADX发起广告请求。
步骤 2. 3: ADX向各DSP传送URL和本域名cookie,发起询价请求。DSP根据预先做好的cookie映射查出对应的已方cookie,决策是否参与竞价,如果参与,则返回自己的出价。在等待一个固定的时间片后,ADX选出出价最高的DSP返回给媒体网站。
步骤 2. 4:媒体网站从胜出的DSP拿到广告创意并展示。
其中步骤2.2和步骤2.3可以合并为一步,即DSP同时返回出价和广告创意地址,由ADX返回给媒体。这样做的好处是减少了一次服务器往返,用户看到的广告延迟也会减少。缺点是ADX可以获得DSP某个广告商的相关受众,因而存在信息泄露风险,不太符合ADX中立市场的地位。实际产品中,这两种方式都有采用。在应用内广告等非Web的环境下,有时供给方和需求方采用同样的用户标识,这时DSP 进行用户对应的操作可以略去。实时竞价的交易方式虽然给予了广告主最大的流量选择空间,也对系统提出了更高的要求(图1-3),并且带来了下面一些实际问题。
图1- 3需求方平台(DSP)系统架构示意图
(1)每次展示都有ADX服务器与多个DSP服务器的参与,这使得服务器与带宽成本大大增加。读者可以简单计算下,假设每个广告请求包的大小是1KB,每秒产生5000个广告请求,在将每个广告请求都发给10个DSP的情形下,需要的带宽就将达到400Mbit/s,而这样 的数字对于ADX来说只是一个不大的规模。
(2)在询价过程中,ADX要等待一个约定好的时间片(一般情况下为100ms),这使得用户看到的广告延迟增加,对CTR有负面影响。
(3)原理上DSP可以以极低的出价参与竞价,这样虽不能获得流量,却可以低成本得到在媒体网站上的用户行为数据,这里存在着潜在的信息泄露风险。
RTB的接口有两个对接方:在ADX方实现的部分称为RTBD;在DSP方实现的部分称为RTBS。在各个ADX中,RTB接口的细节和具体参数有很大的不同,显然这对于广告主从不同的ADX中统一采买流量是不利的。为了解决这一问题,IAB经过充分市场调研与企业合作,制定了OpenRTB的接口标准,这一标准涵盖了视频、无线、文字、横幅等多种广告形式下的RTB问题,并已经为一些ADX所采用。
需要特别说明一点,实时竞价中的“实时”这一限定,特指的是需求方实时地,也就是在每一次展示时参与广告竞价是需求方发起。而 供给方对不同广告实时比价的过程是一般竞价广告。因此,不要把搜索广告、广告网络等也理解成实时竞价产品,属于我们说的程序化的范畴。
具体地讨论一个例子。搜索广告算不算程序化呢?这个要算的话,恐怕海带也得算海鲜了。有人说,搜索不也是有个server,用程序实时决策出哪家的广告么?没错,可是这个“程序”和“决策”,都是发生在媒体,也就是供给方一侧的,而供给方这么做,早已经有快二十年的历史了。
说程序化交易领域是概念主义盛行的重灾区,恐怕不为过。那么“程序化交易”到底是什么意思呢?就我的观察,一线从业者对这个概念理解正确的人,比例并不算高,或者说,大家也并不在乎它是啥意思。简单来说,广告主,即需求方,自己架几台server,用程序从媒体那里实时选择和优化流量,就是程序化交易。注意,上面这句话里的几个要素,需求方、sever、实时选择流量,缺一不可。
总结,为什么广告交易会向RTB方向发展?很简单,程序化过程让交易变得简单直接和精细。这才是人最基本需求。
【延伸阅读】
广告交易四大核心模块 上篇我们主要讲到实时竞价程序化交易广告的决策过程,对于具体的核心模块并未详细介绍。在线广告中,图1-4这三个模块一定少不了。外加一个反作弊模块(图1-5)。
图1- 4计算广告的三个核心模块
step1:受众定向。受众定向模块所完成的,就是给用户打上各种标签,制造特征(特征选择及构造,模型的选择和调参,这其中任何一个单拎出来都是工业界中十分热门的话题)。系统的原始输入是媒体网站的日志数据,具体而言就是网站的访问日志以及用户的行为记录,日志模块为媒体网站提供了大规模的存储和计算服务,为广告系统稳定的数据输入提供了强有力的保障。接下来的任务是根据日志数据来判断和训练你想要的模型,如用户性别。
step2:广告检索。广告检索模块将要完成的,就是根据这些标签或特征为用户召回相关的广告。有了模型特征,输入是特征,如用户性别,输出是候选广告集合,这些广告该怎么找呢?除了数据库繁琐的查找,还有更通用的检索方法,常见于搜索引擎中,这就是倒排索引。这里面其实有三方关系:用户标签、广告标签和广告。通常,用户标签和广告标签是存在着映射关系的,所以我们可以通过用户标签,来找到相应的广告标签。如果将广告看作是doc,将广告标签看作token,那么通过广告标签找广告的过程就是倒排索引。
step3:CTR排序。该模块的输入是候选的广告集合,输出是一个根据用户pCTR从高到低排序的一个广告序列,用于流量在线分配。之所以pCTR(点击率预估)十分重要,是因为它直接关系到媒体网站的收入,也直接关系到广告主的推广效果。广告位的个数就那么几个,显眼的更少,凭什么把你放在头条呢?靠的就是点击率预估。
用于点击率预估的数据主要是日志数据,一般会有点击行为(点击为1,没点为0)、广告信息(广告位、广告主id、广告标签和广告描述等)、用户信息(用户id和用户标签等)、上下文信息和时间戳等。有了这些原始数据之后,需要对数据进行清洗,然后利用统计或模型的方法构造特征,进而做特征选择和特征组合,最终特征的数量级大约在10亿-100亿维。完成了特征工作之后,在模型方面,较为经典的点击率预估模型是线性模型Logistic Regression,由于LR在通过sigmoid之前是一个[0,1]之间的浮点数,利用LR的特点,我们可以将这个浮点数作为用户点击该广告的概率,把广告按照这个概率从高到低放置在相应广告位上,就完成了广告排序。
最后一个重要模块就是反作弊,这项任务至今仍然非常艰巨。无论是在技术手段上还是人情关系里,各方都是上有政策,下有对策。
常用的移动端作弊手段如:
刷机:通过特殊的刷机软件,篡改手机的环境参数,如IMEI/MAC等,模拟多用户下载、激活和使用。
模拟器:通过虚拟机软件(bluestacks,Virtual Box等)自动运行脚本,模拟用户点击、下载、激活、留存等数据。
程序化点击:通过雇佣或者劫持的方式,利用大量真实设备进行程序化的点击、下载、激活等。
图1- 5小米反作弊系统架构
而反作弊的关键技术各家公司也有所不同,如小米反作弊系统架构:
设备真伪识别:一般是通过SDK的方式采集硬件信息,为每台设备生成唯一的设备id,后续即使刷量者对设备的硬件信息进行修改,唯一的设备id也不会变。市场上有多家公司提供了类似的解决方案,比如数盟、量江湖、maxent等。小米与其中几家公司有紧密的合作,并且自己也开发了一套基于硬件标识的设备真伪识别方案。
用户行为分析:不管是哪种作弊手段,都是有规律可循的,通过大数据分析和机器学习一定能找到蛛丝马迹。比如用户IP分布异常、机型分布异常、点击率异常、下载激活时间间隔异常、留存率和使用时长异常等等。作弊的仿真度越高,异常特征就越不明显,对应的反作弊技术和代价也就越高。
客户端:核心模块是反作弊SDK,通过采集系统信息生成设备唯一id,用于机器真伪识别。另外采集其他必要的信息用于服务端的反作弊模型分析。
服务端:有两套反作弊系统,实时和离线反作弊。
实时反作弊系统收集实时上报的日志,通过实时流计算框架,快速分析作弊情况,一般用于捕捉短期的作弊行为。
离线反作弊则是通过收集多维度的数据,经过离线计算和反作弊模型,最大限度发现各种长期和短期的作弊行为。
不管是实时还是离线反作弊,都牵涉三个模块:数据收集,特征计算,反作弊模型。
数据收集:设备id,IP,广告点击/下载/激活时间戳等信息。
特征计算:多维度(如IP、UserAgent等)、多粒度(周、天、小时、分钟),多指标(CTR、下载数、时间间隔等)的实时/离线计算。
反作弊模型:分为实时和离线模型
实时模型:主要是基于规则的模型
离线模型:目前主要也是基于规则的模型,未来会尝试用机器学习模型(比如LR,DNN等)
前端:主要提供数据报表、异常监控、智能分析等功能。
总结,我们在研究各方模块其最终目标是优化广告主ROI的同时增加广告收入。这两个目标说起来简单,事实上是不完全一致的。广告公司想实现利润最大化的同时也要广告主实现利润最大化,而且还不能伤害受众的体验。这种3方动态平衡的把握极其艰难。另外,不同的广告主对于R的定义也不一样,有的是激活/留存(新闻资讯),有的是用户注册(金融理财),有的是下单/消费(电商购物)。
最后祝愿,在广告商业变现产品路上的我们,在优化整个社会效率和信息流转效率之余还能有时间欣赏身边的风景。
特别感谢以下资料:刘鹏、王超老师著作《计算广告》,人民邮电出版社;吴军博士《硅谷来信》;小米广告研发负责人宋强《广告黑科技》;曾宪超《大数据文摘》
上一篇:触动传媒倒闭了 出租车上的广告屏幕也要消失了
下一篇:奥美公关摊上事了 被指扮“李鬼”冒领创意 还不删文道歉吗?