计算广告读书笔记(在线广告技术)

2020-08-28 | Tags: 读书 计算广告

在线广告技术
总览
个性化系统:根据用户,上下文信息,动态决定返回什么内容的系统
一般组成
在线投放引擎:响应实时请求
web服务器:
广告投放机
广告检索
广告排序
收益管理
请求接口
离线分布式计算:离线数据处理平台
行为定向
用户标签
点击率建模
CTR模型与特征
分配规划
分配管理方案
日志生成
在线流计算:在线实时反馈平台
实时索引
实时受众定向
实时用户标签
实时点击反馈
实时点击率特征
数据高速公路
日志传输
工具
Nginx:web服务器
zookeeper:分布式配置和集群管理
lucene:全文检索引擎
通过标签检索广告
Thrift:通讯接口
Flume:日志收集和传输系统
Hadoop:分布式数据处理平台
Redis:特征在线缓存
Storm/Spack:实时流计算平台
技术总览图
基础知识
信息检索
倒排索引:从大量文档中查找包含某些词的文档集合
向量空间模型:文档相似度度量方法
Bow词袋
各个关键词在文档中的强度的矢量
d=(x1,x2,...xm)
x一般采用TF-IDF
TF:词频
IDF:倒数文档频率--该词在所有文档中出现的频繁程度的倒数
相似度度量方法
余弦距离cos(d1,d2)=d1.d2/||d1||.||d2||
最优化方法
给定某个确定的目标函数,以及其约束,求解该函数的最值问题
拉格朗日法与凸优化
带约束的凸优化问题通过拉格朗日法转化为无约束问题
无约束问题
下降单纯型法
梯度下降法
随机梯度下降
对函数进行求导,得到梯度(f在x点函数值上升最快的方向),每次沿着梯度相反方向按步长前进,逼近最值
拟牛顿法
BFGS
利用梯度和二阶导数信息进行探索
机器学习
统计机器学习
深度学习
分布式优化--传输中间参数
合约广告
担保式投送系统:
根据用户标签和上下文找到可以匹配的广告合约,由在线分配模块决定本次的投放。记录展示和点击日志,作为合约的依据,并且更新在线分配算法的参数。同时日志送入在线流式平台,对用户标签索引进行更新调整。
流量预测
描述:给定一组受众标签组合(合约)以及一个eCPM阈值估算在将来某个时间段内符合这些受众标签组合的条件企鹅市场价在该eCPM阈值以下的广告展示量
根据历史数据的统计来拟合未来的流量
视为一个索引问题,索引的查询是广告设置的受众条件,索引的文档变为每次展示,索引的键为这次展示的受众标签
流量预测示意图.scan
频次控制
用户看到同一创意多次,点击率下降,因此需要控制用户接触同一创意的次数,提高性价比
即控制(a,u)组合在一定时间周期内的展示量
解决方案:
客户端方案:把某用户对某创意的频次记录记录在浏览器的cookie里,投放决策时传递给服务器做决策
服务端方案:在服务端记录专用记录缓存,进行更新和决策
在线分配
通过对每一次广告展示进行实时在线决策,从而达到在满足某些量的约束的前提下,优化广告产品整体收益的过程
在线分配在流量预测的指导下进行,把在线分配转化为离线优化问题,对(11.4)进行决策
是一个一般的带线性优化的问题,优化目标是线性函数或者二次函数时,是一个标准的线性规划或者二次规划问题
基于对偶算法的紧凑分配方案
综合分配方案SHALE
启发式分配方案HWM
1根据历史流量确定每个广告合约资源的紧缺程度,进而分配优先级
2根据优先级确定各个广告合约的分配比例
受众定向(受众标签制定)
用户标签(用户特征,行为)。t(u)形式
对某用户的在某类广告上的点击量作为建模的对象
对此将各种行为(搜索,广告点击,网页浏览)映射到一个或者多个定向标签上
类似推荐LR方法
上下文标签。t(c)形式
1规则对页面分类
2提取页面关键词(TF-IDF)
3页面链锚文本中的关键词
4页面流量来源中的搜索关键词
5页面内容泛化
广告主定制化标签。t(a,u)形式
竞价广告
高效率索引技术
广告网络中复杂的定向条件需要在倒排索引基础上特别优化
布尔表达式检索:布隆过滤器?
以查询和文档之间相似度为目标的检索问题称为相关性检索
基于DNN的语义建模
最近邻语义检索
流式计算平台(快速反馈数据)
实时反作弊
实时计费
短时用户标签
短时动态特征
storm
spark
点击率预估
定义
需要预估eCPM-因此需要尽可能准确的预估点击率
对一个给定的(a,u,c)三元组做出估计,推荐出与上下文和用户相关的广告
方法
逻辑回归 U(a,u,c)=p(h=1|a,u,c) 的概率建模问题
p(h|a,u,c) = G((2h-1)w'x(a,u,c)) G为sigmod函数
优化方法:拟牛顿法
因子分解机
GBDT
深度学习
探索与利用E&E
冷启动,对非最优的组合出现机会很少,对这部分的估计也不准确