当前位置: 首页>编程语言>正文

用python实现简单的pctr模型

前言

仅记录自己对pctr的理解
使用Python实现一个最简单的神经网络,解决一个点击率预估的问题。

场景

耐克,阿迪同时在微信公众号上投放广告,我们需要给这两个广告做出预估点击率排序


用python实现简单的pctr模型,第1张
耐克
用python实现简单的pctr模型,第2张
阿迪达斯

简单介绍下业务:
最终决定选哪个广告的公式:eCPM=pCTR x bid
bid 是出价的意思,假设他们bid 相同,则就看谁的pCTR 大,谁胜出。

公众号特征:文中广告,底部广告

用户特征:用户id,性能,年龄等

为了简单,假设两家广告都是在底部广告位,同一个用户下竞争。

广告特征:这里假设是
X={x1="有文字说明",x2="有场景",x3="有美女"}

任务分析

这是一个有监督的机器学习任务,我们想简单的预测广告最有可能被点击的概率,对广告来说是一个二分类问题:被点击,或者不被点击。
所以,我们需要搭建一个点击率预测模型,这也就决定我们需要构建一个有监督学习的训练数据集。
这里选择最简单前馈神经网络为例,这种类型的人工神经网络是直接从前到后传递数据的,简称前向传播过程。

数据预处理

源数据一般不能直接使用,会有确实,异常,冗余,重复等问题,
一般要经过数据清洗,数据转换,数据描述,特征筛选或组合,特征抽取,one-hot编码等等步骤处理,转化为机器学习算法能够利用的形式。

这里假设最终的数据经过数值化编码,最终格式为:


用python实现简单的pctr模型,第3张
训练数据XY

取第一样本X0=[0 0 1],表示对应的三个特征,Y0=[0],表示这个样本是否被点击。翻译一下:这个样本[没有文字,没有场景,有美女],没有被点击

选择模型

这里选用神经网络,神经网络基本结构有:输入层,隐藏层,激活函数,输出层。

激活函数
通过引入激活函数,实现非线性变换。
这里选用sigmoid 函数实例
公式:
用python实现简单的pctr模型,g(z)={1 \over 1+e^{-z}},第4张

sigmoid函数图像:


用python实现简单的pctr模型,第5张

sigmoid函数的导数形式:


用python实现简单的pctr模型,第6张

训练模型

现在X确定,Y确定,模型也选好,训练模型就是求解模型中的权重W

训练的三个核心流程:前向计算、损失函数、反向计算

权重的更新公式:
用python实现简单的pctr模型,w_j := w_j + \alpha(y^{(i)}-h(x^{(i)}))x_{j}^{(i)},第7张

推导过程在上一篇 LR逻辑回归 里

模型预估

X确定,Y确定,参数也确定后,将两广告的预测数据输入模型,即可得到广告被点击的预估结果: 耐克 = [0.9999], 阿迪 = [0.0008],可以认为耐克广告有极大的可能被点击。

代码实现

# coding:utf-8
import numpy as np 

class NeuralNetwork(): 
    def __init__(self): 
        np.random.seed(1) 
        self.synaptic_weights = 2 * np.random.random((3, 1)) - 1 
    
    def sigmoid(self, x):  
        return 1 / (1 + np.exp(-x)) 
    
    def sigmoid_derivative(self, x): 
        return x * (1 - x)
    
    def train(self, training_inputs, training_outputs,learn_rate, training_iterations): 
        for iteration in range(training_iterations): 
            output = self.think(training_inputs) 
            error = training_outputs - output 
            adjustments = np.dot(training_inputs.T, error) 
            self.synaptic_weights += learn_rate*adjustments 
    
    def think(self, inputs): 
        inputs = inputs.astype(float) 
        output = self.sigmoid(np.dot(inputs, self.synaptic_weights)) 
        return output 

if __name__ == "__main__": 
    # 初始化前馈神经网络类 
    neural_network = NeuralNetwork() 
    print "随机初始化的权重矩阵W"
    print neural_network.synaptic_weights
    train_data=[[0,0,1], [1,1,1], [1,0,1], [0,1,1]]
    training_inputs = np.array(train_data) 
    training_outputs = np.array([[0,1,1,0]]).T 
    # 参数学习率
    learn_rate=0.1
    # 模型迭代的次数
    epoch=15000
    neural_network.train(training_inputs, training_outputs, learn_rate, epoch) 
    print "迭代计算之后权重矩阵W: "
    print neural_network.synaptic_weights
    # 模拟需要预测的数据X
    naike_data=[1,0,0]
    adi_data=[0,1,1]
    # 使用训练的模型预测广告被点击的概率
    print "naike 被点击的概率:"
    print neural_network.think(np.array(naike_data))
    print "adi 被点击的概率:"
    print neural_network.think(np.array(adi_data))

总结

最终这个模型,可以根据输入特征输出预测结果。
例子里的特征非常简单,LR也没有考虑特征间的关系,所以仅用来学习理解。


https://www.xamrdz.com/lan/53y1848877.html

相关文章: