关于python对数损失函数的信息

从零开始用Python构建神经网络

公司主营业务：成都做网站、网站设计、移动网站开发等业务。帮助企业客户真正实现互联网宣传，提高企业的竞争能力。成都创新互联是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化，感谢他们对我们的高要求，感谢他们从不同领域给我们带来的挑战，让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。成都创新互联推出淇滨免费做网站回馈大家。

动机：为了更加深入的理解深度学习，我们将使用 python 语言从头搭建一个神经网络，而不是使用像 Tensorflow 那样的封装好的框架。我认为理解神经网络的内部工作原理，对数据科学家来说至关重要。

这篇文章的内容是我的所学，希望也能对你有所帮助。

神经网络是什么?

介绍神经网络的文章大多数都会将它和大脑进行类比。如果你没有深入研究过大脑与神经网络的类比，那么将神经网络解释为一种将给定输入映射为期望输出的数学关系会更容易理解。

神经网络包括以下组成部分

? 一个输入层，x

? 任意数量的隐藏层

? 一个输出层，?

? 每层之间有一组权值和偏置，W and b

? 为隐藏层选择一种激活函数，σ。在教程中我们使用 Sigmoid 激活函数

下图展示了 2 层神经网络的结构(注意：我们在计算网络层数时通常排除输入层)

2 层神经网络的结构

用 Python 可以很容易的构建神经网络类

训练神经网络

这个网络的输出 ? 为：

你可能会注意到，在上面的等式中，输出 ? 是 W 和 b 函数。

因此 W 和 b 的值影响预测的准确率. 所以根据输入数据对 W 和 b 调优的过程就被成为训练神经网络。

每步训练迭代包含以下两个部分:

? 计算预测结果 ?，这一步称为前向传播

? 更新 W 和 b,，这一步成为反向传播

下面的顺序图展示了这个过程：

前向传播

正如我们在上图中看到的，前向传播只是简单的计算。对于一个基本的 2 层网络来说，它的输出是这样的：

我们在 NeuralNetwork 类中增加一个计算前向传播的函数。为了简单起见我们假设偏置 b 为0：

但是我们还需要一个方法来评估预测结果的好坏(即预测值和真实值的误差)。这就要用到损失函数。

损失函数

常用的损失函数有很多种，根据模型的需求来选择。在本教程中，我们使用误差平方和作为损失函数。

误差平方和是求每个预测值和真实值之间的误差再求和，这个误差是他们的差值求平方以便我们观察误差的绝对值。

训练的目标是找到一组 W 和 b，使得损失函数最好小，也即预测值和真实值之间的距离最小。

反向传播

我们已经度量出了预测的误差(损失)，现在需要找到一种方法来传播误差，并以此更新权值和偏置。

为了知道如何适当的调整权值和偏置，我们需要知道损失函数对权值 W 和偏置 b 的导数。

回想微积分中的概念，函数的导数就是函数的斜率。

梯度下降法

如果我们已经求出了导数，我们就可以通过增加或减少导数值来更新权值 W 和偏置 b(参考上图)。这种方式被称为梯度下降法。

但是我们不能直接计算损失函数对权值和偏置的导数，因为在损失函数的等式中并没有显式的包含他们。因此，我们需要运用链式求导发在来帮助计算导数。

链式法则用于计算损失函数对 W 和 b 的导数。注意，为了简单起见。我们只展示了假设网络只有 1 层的偏导数。

这虽然很简陋，但是我们依然能得到想要的结果—损失函数对权值 W 的导数(斜率)，因此我们可以相应的调整权值。

现在我们将反向传播算法的函数添加到 Python 代码中

为了更深入的理解微积分原理和反向传播中的链式求导法则，我强烈推荐 3Blue1Brown 的如下教程：

Youtube：

整合并完成一个实例

既然我们已经有了包括前向传播和反向传播的完整 Python 代码，那么就将其应用到一个例子上看看它是如何工作的吧。

神经网络可以通过学习得到函数的权重。而我们仅靠观察是不太可能得到函数的权重的。

让我们训练神经网络进行 1500 次迭代，看看会发生什么。注意观察下面每次迭代的损失函数，我们可以清楚地看到损失函数单调递减到最小值。这与我们之前介绍的梯度下降法一致。

让我们看看经过 1500 次迭代后的神经网络的最终预测结果：

经过 1500 次迭代训练后的预测结果

我们成功了!我们应用前向和方向传播算法成功的训练了神经网络并且预测结果收敛于真实值。

注意预测值和真实值之间存在细微的误差是允许的。这样可以防止模型过拟合并且使得神经网络对于未知数据有着更强的泛化能力。

下一步是什么?

幸运的是我们的学习之旅还没有结束，仍然有很多关于神经网络和深度学习的内容需要学习。例如：

? 除了 Sigmoid 以外，还可以用哪些激活函数

? 在训练网络的时候应用学习率

? 在面对图像分类任务的时候使用卷积神经网络

我很快会写更多关于这个主题的内容，敬请期待!

最后的想法

我自己也从零开始写了很多神经网络的代码

虽然可以使用诸如 Tensorflow 和 Keras 这样的深度学习框架方便的搭建深层网络而不需要完全理解其内部工作原理。但是我觉得对于有追求的数据科学家来说，理解内部原理是非常有益的。

这种练习对我自己来说已成成为重要的时间投入，希望也能对你有所帮助

人工智能一些术语总结

随着智能时代慢慢的到来，有一些基本概念都不知道真的是要落伍了，作为正在积极学习向上的青年，我想总结一份笔记，此份笔记会记录众多AI领域的术语和概念，当然，学一部分记录一部分，并且可能会夹杂着自己的一些理解，由于能力有限，有问题希望大家多多赐教。当然，由于内容太多，仅仅只是记录了中英名对照，有的加上了简单的解释，没加的后续大家有需求，我会慢慢完善~~。目录暂定以首字母的字典序排序。可以当作目录方便以后查阅~~建议收藏加点赞哈哈哈

------------------------------------------------这里是分割线--------------------------------------------------

准确率（accuracy）

分类模型预测准确的比例。

二分类问题中，准确率定义为：accuracy = (true positives +true negatives)/all samples

多分类问题中，准确率定义为：accuracy = correctpredictions/all samples

激活函数（activation function）

一种函数，将前一层所有神经元激活值的加权和输入到一个非线性函数中，然后作为下一层神经元的输入，例如 ReLU 或 Sigmoid

AdaGrad

一种复杂的梯度下降算法，重新调节每个参数的梯度，高效地给每个参数一个单独的学习率。

AUC（曲线下面积）

一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类（Ture Positives）要比假正类（False Positives）概率大的确信度。

Adversarial example（对抗样本）

Adversarial Networks（对抗网络）

Artificial General Intelligence/AGI（通用人工智能）

Attention mechanism（注意力机制）

Autoencoder（自编码器）

Automatic summarization（自动摘要）

Average gradient（平均梯度）

Average-Pooling（平均池化）

反向传播（Backpropagation/BP）

神经网络中完成梯度下降的重要算法。首先，在前向传播的过程中计算每个节点的输出值。然后，在反向传播的过程中计算与每个参数对应的误差的偏导数。

基线（Baseline）

被用为对比模型表现参考的简单模型。

批量（Batch）

模型训练中一个迭代（指一次梯度更新）使用的样本集。

批量大小（Batch size）

一个批量中样本的数量。例如，SGD 的批量大小为 1，而 mini-batch 的批量大小通常在 10-1000 之间。

偏置（Bias）

与原点的截距或偏移量。

二元分类器（Binary classification）

一类分类任务，输出两个互斥类别中的一个。比如垃圾邮件检测。

词袋（Bag of words/Bow）

基学习器（Base learner）

基学习算法（Base learning algorithm）

贝叶斯网络（Bayesian network）

基准（Bechmark）

信念网络（Belief network）

二项分布（Binomial distribution）

玻尔兹曼机（Boltzmann machine）

自助采样法／可重复采样／有放回采样（Bootstrap sampling）

广播（Broadcasting）

类别（Class）

所有同类属性的目标值作为一个标签。

分类模型（classification）

机器学习模型的一种，将数据分离为两个或多个离散类别。

收敛（convergence）

训练过程达到的某种状态，其中训练损失和验证损失在经过了确定的迭代次数后，在每一次迭代中，改变很小或完全不变。

凸函数（concex function）

一种形状大致呈字母 U 形或碗形的函数。然而，在退化情形中，凸函数的形状就像一条线。

成本（cost）

loss 的同义词。深度学习模型一般都会定义自己的loss函数。

交叉熵（cross-entropy）

多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。

条件熵（Conditional entropy）

条件随机场（Conditional random field/CRF）

置信度（Confidence）

共轭方向(Conjugate directions)

共轭分布(Conjugate distribution)

共轭梯度(Conjugate gradient)

卷积神经网络（Convolutional neural network/CNN）

余弦相似度（Cosine similarity）

成本函数（Cost Function）

曲线拟合（Curve-fitting）

数据集（data set）

样本的集合

深度模型（deep model）

一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型对照（widemodel）。

dropout 正则化（dropoutregularization）

训练神经网络时一种有用的正则化方法。dropout 正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多，正则化越强。

数据挖掘（Data mining）

决策树/判定树（Decisiontree）

深度神经网络（Deep neural network/DNN）

狄利克雷分布（Dirichlet distribution）

判别模型（Discriminative model）

下采样（Down sampling）

动态规划（Dynamic programming）

早期停止法（early stopping）

一种正则化方法，在训练损失完成下降之前停止模型训练过程。当验证数据集（validationdata set）的损失开始上升的时候，即泛化表现变差的时候，就该使用早期停止法了。

嵌入（embeddings）

一类表示为连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中。

经验风险最小化（empirical risk minimization，ERM）

选择能使得训练数据的损失函数最小化的模型的过程。和结构风险最小化（structualrisk minimization）对照。

集成（ensemble）

多个模型预测的综合考虑。可以通过以下一种或几种方法创建一个集成方法：

设置不同的初始化；

设置不同的超参量；

设置不同的总体结构。

深度和广度模型是一种集成。

样本（example）

一个数据集的一行内容。一个样本包含了一个或多个特征，也可能是一个标签。参见标注样本（labeledexample）和无标注样本（unlabeled example）。

假负类（false negative，FN）

被模型错误的预测为负类的样本。例如，模型推断一封邮件为非垃圾邮件（负类），但实际上这封邮件是垃圾邮件。

假正类（false positive，FP）

被模型错误的预测为正类的样本。例如，模型推断一封邮件为垃圾邮件（正类），但实际上这封邮件是非垃圾邮件。

假正类率（false positive rate，FP rate）

ROC 曲线（ROC curve）中的 x 轴。FP 率的定义是：假正率=假正类数/(假正类数+真负类数)

特征工程（feature engineering）

在训练模型的时候，挖掘对模型效果有利的特征。

前馈神经网络（Feedforward Neural Networks/FNN ）

泛化（generalization）

指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。

广义线性模型（generalized linear model）

最小二乘回归模型的推广/泛化，基于高斯噪声，相对于其它类型的模型（基于其它类型的噪声，比如泊松噪声，或类别噪声）。广义线性模型的例子包括：

logistic 回归

多分类回归

最小二乘回归

梯度（gradient）

所有变量的偏导数的向量。在机器学习中，梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。

梯度截断（gradient clipping）

在应用梯度之前先修饰数值，梯度截断有助于确保数值稳定性，防止梯度爆炸出现。

梯度下降（gradient descent）

通过计算模型的相关参量和损失函数的梯度最小化损失函数，值取决于训练数据。梯度下降迭代地调整参量，逐渐靠近权重和偏置的最佳组合，从而最小化损失函数。

图（graph）

在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的，表示传递一个操作（一个张量）的结果（作为一个操作数）给另一个操作。使用 TensorBoard 能可视化计算图。

高斯核函数（Gaussian kernel function）

高斯混合模型（Gaussian Mixture Model）

高斯过程（Gaussian Process）

泛化误差（Generalization error）

生成模型（Generative Model）

遗传算法（Genetic Algorithm/GA）

吉布斯采样（Gibbs sampling）

基尼指数（Gini index）

梯度下降（Gradient Descent）

启发式（heuristic）

一个问题的实际的和非最优的解，但能从学习经验中获得足够多的进步。

隐藏层（hidden layer）

神经网络中位于输入层（即特征）和输出层（即预测）之间的合成层。一个神经网络包含一个或多个隐藏层。

超参数（hyperparameter）

连续训练模型的过程中可以拧动的「旋钮」。例如，相对于模型自动更新的参数，学习率（learningrate）是一个超参数。和参量对照。

硬间隔（Hard margin）

隐马尔可夫模型（Hidden Markov Model/HMM）

层次聚类（Hierarchical clustering）

假设检验（Hypothesis test）

独立同分布（independently and identicallydistributed，i.i.d）

从不会改变的分布中获取的数据，且获取的每个值不依赖于之前获取的值。i.i.d. 是机器学习的理想情况——一种有用但在现实世界中几乎找不到的数学构建。

推断（inference）

在机器学习中，通常指将训练模型应用到无标注样本来进行预测的过程。在统计学中，推断指在观察到的数据的基础上拟合分布参数的过程。

输入层（input layer）

神经网络的第一层（接收输入数据）。

评分者间一致性（inter-rater agreement）

用来衡量一项任务中人类评分者意见一致的指标。如果意见不一致，则任务说明可能需要改进。有时也叫标注者间信度（inter-annotator agreement）或评分者间信度（inter-raterreliability）。

增量学习（Incremental learning）

独立成分分析（Independent Component Analysis/ICA）

独立子空间分析（Independent subspace analysis）

信息熵（Information entropy）

信息增益（Information gain）

JS 散度（Jensen-ShannonDivergence/JSD）

Kernel 支持向量机（KernelSupport Vector Machines/KSVM）

一种分类算法，旨在通过将输入数据向量映射到更高维度的空间使正类和负类之间的边际最大化。例如，考虑一个输入数据集包含一百个特征的分类问题。为了使正类和负类之间的间隔最大化，KSVM 从内部将特征映射到百万维度的空间。KSVM 使用的损失函数叫作 hinge 损失。

核方法（Kernel method）

核技巧（Kernel trick）

k 折交叉验证／k 倍交叉验证（K-fold cross validation）

K - 均值聚类（K-MeansClustering）

K近邻算法（K-Nearest NeighboursAlgorithm/KNN）

知识图谱（Knowledge graph）

知识库（Knowledge base）

知识表征（Knowledge Representation）

L1 损失函数（L1 loss）

损失函数基于模型对标签的预测值和真实值的差的绝对值而定义。L1 损失函数比起 L2 损失函数对异常值的敏感度更小。

L1 正则化（L1regularization）

一种正则化，按照权重绝对值总和的比例进行惩罚。在依赖稀疏特征的模型中，L1 正则化帮助促使（几乎）不相关的特征的权重趋近于 0，从而从模型中移除这些特征。

L2 损失（L2 loss）

参见平方损失。

L2 正则化（L2regularization）

一种正则化，按照权重平方的总和的比例进行惩罚。L2 正则化帮助促使异常值权重更接近 0 而不趋近于 0。（可与 L1 正则化对照阅读。）L2 正则化通常改善线性模型的泛化效果。

标签（label）

在监督式学习中，样本的「答案」或「结果」。标注数据集中的每个样本包含一或多个特征和一个标签。在垃圾邮件检测数据集中，特征可能包括主题、发出者何邮件本身，而标签可能是「垃圾邮件」或「非垃圾邮件」。

标注样本（labeled example）

包含特征和标签的样本。在监督式训练中，模型从标注样本中进行学习。

学习率（learning rate）

通过梯度下降训练模型时使用的一个标量。每次迭代中，梯度下降算法使学习率乘以梯度，乘积叫作 gradient step。学习率是一个重要的超参数。

最小二乘回归（least squares regression）

通过 L2 损失最小化进行训练的线性回归模型。

线性回归（linear regression）

对输入特征的线性连接输出连续值的一种回归模型。

logistic 回归（logisticregression）

将 sigmoid 函数应用于线性预测，在分类问题中为每个可能的离散标签值生成概率的模型。尽管 logistic 回归常用于二元分类问题，但它也用于多类别分类问题（这种情况下，logistic回归叫作「多类别 logistic 回归」或「多项式回归」。

对数损失函数（Log Loss）

二元 logistic 回归模型中使用的损失函数。

损失（Loss）

度量模型预测与标签距离的指标，它是度量一个模型有多糟糕的指标。为了确定损失值，模型必须定义损失函数。例如，线性回归模型通常使用均方差作为损失函数，而 logistic 回归模型使用对数损失函数。

隐狄利克雷分布（Latent Dirichlet Allocation/LDA）

潜在语义分析（Latent semantic analysis）

线性判别（Linear Discriminant Analysis/LDA）

长短期记忆（Long-Short Term Memory/LSTM）

机器学习（machine learning）

利用输入数据构建（训练）预测模型的项目或系统。该系统使用学习的模型对与训练数据相同分布的新数据进行有用的预测。机器学习还指与这些项目或系统相关的研究领域。

均方误差（Mean Squared Error/MSE）

每个样本的平均平方损失。MSE 可以通过平方损失除以样本数量来计算。

小批量（mini-batch）

在训练或推断的一个迭代中运行的整批样本的一个小的随机选择的子集。小批量的大小通常在10 到 1000 之间。在小批量数据上计算损失比在全部训练数据上计算损失要高效的多。

机器翻译（Machine translation/MT）

马尔可夫链蒙特卡罗方法（Markov Chain Monte Carlo/MCMC）

马尔可夫随机场（Markov Random Field）

多文档摘要（Multi-document summarization）

多层感知器（Multilayer Perceptron/MLP）

多层前馈神经网络（Multi-layer feedforward neuralnetworks）

NaN trap

训练过程中，如果模型中的一个数字变成了 NaN，则模型中的很多或所有其他数字最终都变成 NaN。NaN 是「Not aNumber」的缩写。

神经网络（neural network）

该模型从大脑中获取灵感，由多个层组成（其中至少有一个是隐藏层），每个层包含简单的连接单元或神经元，其后是非线性。

神经元（neuron）

神经网络中的节点，通常输入多个值，生成一个输出值。神经元通过将激活函数（非线性转换）应用到输入值的加权和来计算输出值。

归一化（normalization）

将值的实际区间转化为标准区间的过程，标准区间通常是-1 到+1 或 0 到 1。例如，假设某个特征的自然区间是 800 到 6000。通过减法和分割，你可以把那些值标准化到区间-1 到+1。参见缩放。

Numpy

Python 中提供高效数组运算的开源数学库。pandas 基于 numpy 构建。

Naive bayes（朴素贝叶斯）

Naive Bayes Classifier（朴素贝叶斯分类器）

Named entity recognition（命名实体识别）

Natural language generation/NLG（自然语言生成）

Natural language processing（自然语言处理）

Norm（范数）

目标（objective）

算法尝试优化的目标函数。

one-hot 编码（独热编码）（one-hotencoding）

一个稀疏向量，其中：一个元素设置为 1，所有其他的元素设置为 0。。

一对多（one-vs.-all）

给出一个有 N 个可能解决方案的分类问题，一对多解决方案包括 N 个独立的二元分类器——每个可能的结果都有一个二元分类器。例如，一个模型将样本分为动物、蔬菜或矿物，则一对多的解决方案将提供以下三种独立的二元分类器：

动物和非动物

蔬菜和非蔬菜

矿物和非矿物

过拟合（overfitting）

创建的模型与训练数据非常匹配，以至于模型无法对新数据进行正确的预测

Oversampling（过采样）

pandas

一种基于列的数据分析 API。很多机器学习框架，包括 TensorFlow，支持 pandas 数据结构作为输入。参见 pandas 文档。

参数（parameter）

机器学习系统自行训练的模型的变量。例如，权重是参数，它的值是机器学习系统通过连续的训练迭代逐渐学习到的。注意与超参数的区别。

性能（performance）

在软件工程中的传统含义：软件运行速度有多快／高效？

在机器学习中的含义：模型的准确率如何？即，模型的预测结果有多好？

困惑度（perplexity）

对模型完成任务的程度的一种度量指标。例如，假设你的任务是阅读用户在智能手机上输入的单词的头几个字母，并提供可能的完整单词列表。该任务的困惑度（perplexity，P）是为了列出包含用户实际想输入单词的列表你需要进行的猜测数量。

流程（pipeline）

机器学习算法的基础架构。管道包括收集数据、将数据放入训练数据文件中、训练一或多个模型，以及最终输出模型。

Principal component analysis/PCA（主成分分析）

Precision（查准率／准确率）

Prior knowledge（先验知识）

Quasi Newton method（拟牛顿法）

召回率（recall）

回归模型（regression model）

一种输出持续值（通常是浮点数）的模型。而分类模型输出的是离散值。

正则化（regularization）

对模型复杂度的惩罚。正则化帮助防止过拟合。正则化包括不同种类：

L1 正则化

L2 正则化

dropout 正则化

early stopping（这不是正式的正则化方法，但可以高效限制过拟合）

正则化率（regularization rate）

一种标量级，用 lambda 来表示，指正则函数的相对重要性。从下面这个简化的损失公式可以看出正则化率的作用：

minimize(loss function + λ(regularization function))

提高正则化率能够降低过拟合，但可能会使模型准确率降低。

表征（represention）

将数据映射到有用特征的过程。

受试者工作特征曲线（receiver operatingcharacteristic/ROC Curve）

反映在不同的分类阈值上，真正类率和假正类率的比值的曲线。参见 AUC。

Recurrent Neural Network（循环神经网络）

Recursive neural network（递归神经网络）

Reinforcement learning/RL（强化学习）

Re-sampling（重采样法）

Representation learning（表征学习）

Random Forest Algorithm（随机森林算法）

缩放（scaling）

特征工程中常用的操作，用于控制特征值区间，使之与数据集中其他特征的区间匹配。例如，假设你想使数据集中所有的浮点特征的区间为 0 到 1。给定一个特征区间是 0 到 500，那么你可以通过将每个值除以 500，缩放特征值区间。还可参见正则化。

scikit-learn

一种流行的开源机器学习平台。网址：。

序列模型（sequence model）

输入具有序列依赖性的模型。例如，根据之前观看过的视频序列对下一个视频进行预测。

Sigmoid 函数（sigmoid function）

softmax

为多类别分类模型中每个可能的类提供概率的函数。概率加起来的总和是 1.0。例如，softmax 可能检测到某个图像是一只狗的概率为 0.9，是一只猫的概率为 0.08，是一匹马的概率为 0.02。（也叫作 full softmax）。

结构风险最小化（structural risk minimization/SRM）

这种算法平衡两个目标：

构建预测性最强的模型（如最低损失）。

使模型尽量保持简单（如强正则化）。

比如，在训练集上的损失最小化 + 正则化的模型函数就是结构风险最小化算法。更多信息，参见。可与经验风险最小化对照阅读。

监督式机器学习（supervised machine learning）

利用输入数据及其对应标签来训练模型。监督式机器学习类似学生通过研究问题和对应答案进行学习。在掌握问题和答案之间的映射之后，学生就可以提供同样主题的新问题的答案了。可与非监督机器学习对照阅读。

Similarity measure（相似度度量）

Singular Value Decomposition（奇异值分解）

Soft margin（软间隔）

Soft margin maximization（软间隔最大化）

Support Vector Machine/SVM（支持向量机）

张量（tensor）

TensorFlow 项目的主要数据结构。张量是 N 维数据结构（N 的值很大），经常是标量、向量或矩阵。张量可以包括整数、浮点或字符串值。

Transfer learning（迁移学习）

无标签样本（unlabeled example）

包含特征但没有标签的样本。无标签样本是推断的输入。在半监督学习和无监督学习的训练过程中，通常使用无标签样本。

无监督机器学习（unsupervised machine learning）

训练一个模型寻找数据集（通常是无标签数据集）中的模式。无监督机器学习最常用于将数据分成几组类似的样本。无监督机器学习的另一个例子是主成分分析（principal componentanalysis，PCA）

Word embedding（词嵌入）

Word sense disambiguation（词义消歧）

李航统计方法（四）---朴素贝叶斯

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。训练的时候，学习输入输出的联合概率分布；分类的时候，利用贝叶斯定理计算后验概率最大的输出。

={c 1 ……c k }。输入特征向量x和输出类标记y分属于这两个集合。X是输入空间上的随机变量，Y是输出空间上的随机变量。P(X,Y)是X和Y的联合概率分布，训练数据集

由P(X,Y)独立同分布产生。

朴素贝叶斯法通过T学习联合概率分布P(X,Y)。具体来讲，学习以下先验概率：

以及条件概率分布：

于是根据联合概率分布密度函数：

学习到联合概率分布P(X,Y)。

的参数数量是指数级的，也就是X和Y的组合很多，假设x j 可能取值S j 个，Y可能取值有K个，那么参数的个数是

。特别地，取xj=S，那么参数个数为KS n ，当维数n很大的时候，就会发生维数灾难。

一维空间中，把一个单位空间（退化为区间）以每个点距离不超过0.01采样，需要10 2 个平均分布的采样点，而在10维度空间中，需要10 20 个点才行。计算方式用Python描述如下：

可视化图像：

这种指数级的复杂度增长被称为维数灾难。

无法计算了。

为了计算它，朴素贝叶斯法对它做了条件独立性的假设：

也就是各个维度的特征在类确定的情况下都是独立分布的。这一假设简化了计算，也牺牲了一定的分类准确率。

基于此假设，以及贝叶斯定理，后验概率为：

拆开，等于上式分母。

将独立性假设代入上式，得到

朴素贝叶斯分类器可以表示为：

也就是给定参数，找一个概率最大的c k 出来。注意到上式分母其实就是P(X=x)，x给定了就固定了，跟c k 一点关系都没有，所以分母可以去掉，得到：

选择0-1损失函数：

f(X)就是分类器的决策函数，损失函数的参数其实是一个联合分布。

此时期望风险函数为：

上面说过，这是一个联合分布P(X,Y)，是一个and（连乘）的形式，由此取条件期望为风险函数：

所谓条件期望，就是指X=x时，Y的期望。上式其实可以这么推回去：

E x ∑[L()]P(c k |X)=∑P(X)∑[L()]P(X,c k )/P(X)=∑[L()]P(X,c k )=E[L()]

格式比较乱，但愿意思到了。

为了最小化上式，只需对每个X=x执行最小化，那么加起来肯定是极小化的，由此有：

其实不用这么一堆公式，光靠感觉也很好理解，给了一些证据后，不挑后验概率最大的，还能挑啥呢？

前面说过，朴素贝叶斯法要学习的东西就是P(Y=c k )和P(X=x|Y=c k )，这两个概率的估计用极大似然估计法（简单讲，就是用样本猜测模型参数，或者说使得似然函数最大的参数）进行：

也就是用样本中c k 的出现次数除以样本容量。

分子是样本中变量组合的出现次数，分母是上面说过的样本中c k 的出现次数。

于是就有朴素贝叶斯算法，先从训练数据中计算先验概率和条件概率，然后对于给定的实例计算最大的条件概率，输出该条件对应的类别。形式化的描述如下：

例子

给定训练数据：

这个太简单了，利用（3）中的式子就行了。

贝叶斯估计

最大似然估计有个隐患，假设训练数据中没有出现某种参数和类别的组合怎么办？此时估计的概率值为0，但是这不代表真实数据中就没有这样的组合。解决办法是采用贝叶斯估计

1、条件概率的贝叶斯估计：

，S j 表示x j 可能取值的种数。分子和分母分别比最大似然估计多了一点东西，其意义是在随机变量每个取值的频数上加一个常量

。当此常量取0时，就是最大似然估计，当此常量取1时，称为拉普拉斯平滑。

2、先验概率的贝叶斯估计：

贝叶斯情感极性分析器

书中例题太简单，不过瘾。这里分析一个基于贝叶斯文本分类器实现的简单情感极性分析器。

调用实例：

# - - coding:utf-8 - -

# Filename: Bayes.py

# Author：hankcs

# Date: 2015/2/6 22:25

from math import log, exp

输出

(u'pos', 0.6666666666666665)

说明“好优秀”这句话具有正能量的概率是66%，虽然“好”这个词语也存在于负极性的语句中，但是分类器还是准确地区分了它。

上面的贝叶斯分类器使用了拉布拉斯平滑处理策略，在进行条件概率的时候，不是连乘，而是取对数相加，最后逐差取指数，这个过程会发生归一化，得出一个概率出来。

情感极性分析器主要参考了snownlp的实现。

python中log_inner啥意思

python中log_inner是log表示以e为底数的对数函数符号。

在数学运算中，如果没有计算器，对于很大的数字相乘，我们花费大量的时间计算，而且一旦出错，就要重新计算，很是麻烦。其实对于数字相乘，不依靠靠计算器，想要准确简单的运算的方法不是没有，那就是对数和指数，他们解决了大数或非常的小的数相乘的繁琐计算。而在python中，也有计算对数的方法，那就是对数函数log函数。本文将向大家介绍log函数的表述语句、参数和返回值，并以实例演示用log函数计算对数的过程。log()函数：返回 x 的自然对数。即返回以 2 为基数的 x 的对数。

Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990 年代初设计，作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。Python解释器易于扩展，可以使用C语言或C++（或者其他可以通过C调用的语言）扩展新的功能和数据类型。Python 也可用于可定制化软件中的扩展程序语言。Python丰富的标准库，提供了适用于各个主要系统平台的源码或机器码。

分享文章：关于python对数损失函数的信息
分享链接：http://azwzsj.com/article/dojiooo.html

关于python对数损失函数的信息

从零开始用Python构建神经网络

人工智能一些术语总结

李航统计方法（四）---朴素贝叶斯

python中log_inner啥意思

其他资讯