当前位置：首页>编程语言>正文

用python实现简单的pctr模型

编程语言2024-02-28 20:17:56

前言

仅记录自己对pctr的理解
使用Python实现一个最简单的神经网络，解决一个点击率预估的问题。

场景

耐克，阿迪同时在微信公众号上投放广告，我们需要给这两个广告做出预估点击率排序

耐克

阿迪达斯

简单介绍下业务：
最终决定选哪个广告的公式：eCPM=pCTR x bid
bid 是出价的意思，假设他们bid 相同，则就看谁的pCTR 大，谁胜出。

公众号特征：文中广告，底部广告

用户特征：用户id，性能，年龄等

为了简单，假设两家广告都是在底部广告位，同一个用户下竞争。

广告特征：这里假设是
X={x1="有文字说明"，x2="有场景"，x3="有美女"}

任务分析

这是一个有监督的机器学习任务，我们想简单的预测广告最有可能被点击的概率，对广告来说是一个二分类问题：被点击，或者不被点击。
所以，我们需要搭建一个点击率预测模型，这也就决定我们需要构建一个有监督学习的训练数据集。
这里选择最简单前馈神经网络为例，这种类型的人工神经网络是直接从前到后传递数据的，简称前向传播过程。

数据预处理

源数据一般不能直接使用，会有确实，异常，冗余，重复等问题，
一般要经过数据清洗，数据转换，数据描述，特征筛选或组合，特征抽取，one-hot编码等等步骤处理，转化为机器学习算法能够利用的形式。

这里假设最终的数据经过数值化编码，最终格式为：

训练数据XY

取第一样本X0=[0 0 1]，表示对应的三个特征，Y0=[0]，表示这个样本是否被点击。翻译一下：这个样本[没有文字，没有场景，有美女]，没有被点击

选择模型

这里选用神经网络，神经网络基本结构有：输入层，隐藏层，激活函数，输出层。

激活函数
通过引入激活函数，实现非线性变换。
这里选用sigmoid 函数实例
公式：
$用python实现简单的pctr模型,g(z)={1 \over 1+e^{-z}},第4张$

sigmoid函数图像：

sigmoid函数的导数形式：

训练模型

现在X确定，Y确定，模型也选好，训练模型就是求解模型中的权重W

训练的三个核心流程：前向计算、损失函数、反向计算

权重的更新公式：
$用python实现简单的pctr模型,w_j := w_j + \alpha(y^{(i)}-h(x^{(i)}))x_{j}^{(i)},第7张$

推导过程在上一篇 LR逻辑回归里

模型预估

X确定，Y确定，参数也确定后，将两广告的预测数据输入模型，即可得到广告被点击的预估结果：耐克 = [0.9999]，阿迪 = [0.0008]，可以认为耐克广告有极大的可能被点击。

代码实现

# coding:utf-8
import numpy as np 

class NeuralNetwork(): 
    def __init__(self): 
        np.random.seed(1) 
        self.synaptic_weights = 2 * np.random.random((3, 1)) - 1 
    
    def sigmoid(self, x):  
        return 1 / (1 + np.exp(-x)) 
    
    def sigmoid_derivative(self, x): 
        return x * (1 - x)
    
    def train(self, training_inputs, training_outputs,learn_rate, training_iterations): 
        for iteration in range(training_iterations): 
            output = self.think(training_inputs) 
            error = training_outputs - output 
            adjustments = np.dot(training_inputs.T, error) 
            self.synaptic_weights += learn_rate*adjustments 
    
    def think(self, inputs): 
        inputs = inputs.astype(float) 
        output = self.sigmoid(np.dot(inputs, self.synaptic_weights)) 
        return output 

if __name__ == "__main__": 
    # 初始化前馈神经网络类 
    neural_network = NeuralNetwork() 
    print "随机初始化的权重矩阵W"
    print neural_network.synaptic_weights
    train_data=[[0,0,1], [1,1,1], [1,0,1], [0,1,1]]
    training_inputs = np.array(train_data) 
    training_outputs = np.array([[0,1,1,0]]).T 
    # 参数学习率
    learn_rate=0.1
    # 模型迭代的次数
    epoch=15000
    neural_network.train(training_inputs, training_outputs, learn_rate, epoch) 
    print "迭代计算之后权重矩阵W: "
    print neural_network.synaptic_weights
    # 模拟需要预测的数据X
    naike_data=[1,0,0]
    adi_data=[0,1,1]
    # 使用训练的模型预测广告被点击的概率
    print "naike 被点击的概率："
    print neural_network.think(np.array(naike_data))
    print "adi 被点击的概率："
    print neural_network.think(np.array(adi_data))

总结

最终这个模型，可以根据输入特征输出预测结果。
例子里的特征非常简单，LR也没有考虑特征间的关系，所以仅用来学习理解。

查看全文

https://www.xamrdz.com/lan/53y1848877.html

前言

场景