求对一矩阵求导过程的推导在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置.请问这是怎么来的,根据哪个矩

来源:学生作业帮助网 编辑:作业帮 时间:2024/05/06 07:43:35

求对一矩阵求导过程的推导在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置.请问这是怎么来的,根据哪个矩
求对一矩阵求导过程的推导
在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置.请问这是怎么来的,根据哪个矩阵求导公式而来的,请帮忙推导.
这两个网页里都有这样的叙述,我就是看不明白那一步是怎么来的。

求对一矩阵求导过程的推导在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置.请问这是怎么来的,根据哪个矩
简单的做法:用{,}表示内积,则任意依赖于实数t的向量X=X(t),||X||^2={X,X}=X'X,且有莱布尼茨法则:d/dt({X,X})=2{d/dt(X),X}.
任取矩阵A,令g(t)=Θ+tA,则g(0)=Θ,dg/dt=A
令 f(t)=J(g(t))=1/2*||g(t)X−Y||^2={g(t)X−Y,g(t)X−Y}/2,
对t求导,得到d/dt(f(t))={d/dt(g(t))X,g(t)X−Y}={AX,g(t)X-Y}
取t=0,就得到df/dt(0)={AX,ΘX-Y}={AX,ΘX}-{AX,Y}
这是一个A的线性函数:dJ(A)=X'A'ΘX-X'A'Y
这个线性函数就是J的微分.

矩阵的微分是函数导数的概念形式推广到矩阵的情形。矩阵微分根据对不同变量的求导,有不同形式。
定义一: 设m×n矩阵
A(t)=【amn(t)】
的每个元素aij(t)都是自变量t的可导函数,则称m×n矩阵【δamn(t)/δt】为A(t)关于变量t的导数,记为δA(t)/δt;
定义二:设A为m×n阵,f(A)为矩阵A的数量值函数。若f(A)关于A的任一元素aij...

全部展开

矩阵的微分是函数导数的概念形式推广到矩阵的情形。矩阵微分根据对不同变量的求导,有不同形式。
定义一: 设m×n矩阵
A(t)=【amn(t)】
的每个元素aij(t)都是自变量t的可导函数,则称m×n矩阵【δamn(t)/δt】为A(t)关于变量t的导数,记为δA(t)/δt;
定义二:设A为m×n阵,f(A)为矩阵A的数量值函数。若f(A)关于A的任一元素aij的偏导δf/ δaij都存在,则称【δf/δamn】为f(A)关于A=(aij)的导数,记为δf(A)/δA;
定义三:设A为m×n维矩阵型变量,A=(aij),G(A)维A的矩阵值函数(p×q维)即G(A)=【g(A)pq】,其中g(A)ij都为A的数值量函数,且关于A可导,则称【δG/δaij】=△⊙G(△应是倒三角,为[δ/δaij],Hamilton算子矩阵;⊙应是乘号加圈,为Kronecker积)

收起

在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X Y||^2矩阵微分根据对不同变量的求导,有不同形式。 定义一: 设m×n矩阵 A(t

梯度下降的那篇文章已经有详细的介绍了,就是多变元函数的链式法则求导而已,哪一步没有看懂?求导后为什么X变成X'了,并且是X'(*X*Θ−Y)而不是(*X*Θ−Y)X求和(k=1到n)X(i k)b(k)是Xb的第i个分量,记为(Xb)i,而求和(i=1到m)求和[(k=1到n)X(i k)b(k)]X(i j)=求和(i=1到m)X(i j)(Xb)i=X的第i列的转置乘以...

全部展开

梯度下降的那篇文章已经有详细的介绍了,就是多变元函数的链式法则求导而已,哪一步没有看懂?

收起

求对一矩阵求导过程的推导在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置.请问这是怎么来的,根据哪个矩 梯度下降法求极值和直接求导求极值的区别在哪?求函数极值的时候有所谓的梯度下降法.那为什么不直接令梯度(即函数的导数)为零得到极值呢?梯度下降法不是也要反复求导迭代后取得收 极坐标中梯度公式的推导想知道在对角度求偏导的前面为什么多了个 r分之一呢,想知道整个公式的推导过程 一个matlab符号函数求导及梯度的问题高分求一个问题:我现在有一个函数function f=fun(x)f=2*x(1)*x(1)-x(2)-1;1.我想求f对x(1)的导数在[1,2]这点的值2.我想求f对x的梯度(也就是分别对x(1),x(2)求导的一 梯度下降法的原理 牛顿法原理 编程求 梯度下降法与牛顿法的MATLAB 图像压缩编码 急哭了 优化算法中梯度法,为什么梯度负方向下降最快? y=arcsinx 求导公式的推导过程 arctanx的求导公式是什么?能不能写出其推导过程 在利用可逆矩阵P,使A矩阵相似对角化的过程中,求出来对应的特征向量,什么时候要施密特正交化,什么时候不要呢? 矩阵对矩阵求导的问题,加送100分 英语翻译Optimization is done by a stochastic gradient descent scheme 应该被翻译为 最优化(问题)是通过随机梯度下降法解决的.还是应该被翻译为 对随机梯度下降法做了优化? 求对积分求导的过程,发两遍了, 简单求导!求具体推导过程,非常感谢!请问是怎么算得出这个结果的?谢谢! 中时速的推导过程 请问你知道梯度下降法和牛顿法吗?我想知道为什么牛顿法下降的速度比梯度下降的快 矩阵求导请问如何对矩阵进行求导.有没有相关的介绍. 在密封的盒子内装有一质量为m的金属球球刚能在盒内自由活动,若将盒子在空气中竖直向上抛出,抛出后上升,下降的过程中()A上升对盒底有压力,下降对盒顶有压力B上升对盒顶有压力,下降 matlab中矩阵在x,y两个方向求导我有一个矩阵,在matlab中,怎么样分别对矩阵中每一个点在x,y方向上分别求导数.应该不能用函数吧,应该是用某一个矩阵吧.但我不知道这个矩阵应该是什么?