DeeplearningBook中文版 提供快速下载通道,请遵循作者意愿,仅作学习交流使用,勿用于商业目的仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录致谢XVI数学符号第一章前言1.1本书面向的读者101.2深度学习的历史趋势12.1神经网络的众多名称和命运变迁121.2.2与日俱增的数据量171.2.3与日俱增的模型规模1.2.4与日俱增的精度、复杂度和对现实世界的冲击22第一部分应用数学与机器学习基础25第二章线性代数272.1标量、向量、矩阵和张量2722矩阵和向量相乘23单位矩阵和逆矩阵3124线性相关和生成子空间3325范数342.6特殊类型的矩阵和向量3627特征分解3728奇异值分解3929 Moore-Penrose伪逆仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chineseIV目录2.10迹运算41211行列式42212实例:主成分分析42第三章概率与信息论4731为什么要用概率?473.2随机变量493.3概率分布3.3.1离散型变量和概率质量函数9003.3.2连续型变量和概率密度函数3.4边缘概率52条件概率523.6条件概率的链式法则5337独立性和条件独立性5338期望,方差和协方差543.9常用概率分布55391 Bernoulli分布55392 Multinoulli分布563.9.3高斯分布56394指数分布和 Laplace分布58395 Dirac分布和经验分布5839.6分布的混合593.10常用函数的一些性质60311贝叶斯规则633.12连续型变量的技术细节633.13信息论653.14结构化概率模型68第四章数值计算724.1上溢和下溢4.2病态条件数734.3基于梯度的优化方法744.31梯度之上: Jacobian和 Hessian矩阵77仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录44约束优化8245实例:线性最小二乘85第五章机器学习基础875.1学习算法8751.1任务T85.1.2性能度量P513经验E9251.4实例:线性回归945.2容量、过拟合和欠拟合9752.1没有免费午餐定理102522正则化1025.3超参数和验证集105531交叉验证1065.4估计、偏差和方差10754.1点估计107542偏差109543方差和标准误差1115.4.4权衡偏值和方差以最小化均方误差113致性1145.5最大似然估计1155.5.1条件对数似然和均方误差1165.52最大似然的性质1175.6贝叶斯统计1185.6.1最大后验(MAP)估计1215.7监督学习算法1225.7.1概率监督学习1225.72支持向量机1235.7.3其他简单的监督学习算法1255.8无监督学习算法1285.8.1主成分分析128582k-均值聚类1315.9随机梯度下降132仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录5.10构建机器学习算法1335.11深度学习的动机与挑战1345.111维数灾难..1355.112局部不变性和平滑正则化135511.3流形学习139第二部分深层网络:现代实践143第六章深度前馈网络14561实例:学习XOR14762基于梯度的学习1526.2.1代价函数1536.21.1用最大似然学习条件分布1546.2.1.2学习条件统计量155622输出单元1566.22.1用于高斯输出分布的线性单元15662.22用于 Bernoulli输出分布的 sigmoid单元..1576.22.3用于 Multinoulli输出分布的 softmax单元1596.22.4其他的输出类型1616.3隐藏单元16563.1整流线性单元及其扩展16663,2 logistic sigmoid与双曲正切函数1686.3.3其他隐藏单元1686.4结构设计1706.4.1通用近似性质和深度17064.2其他结构上的考虑1736.5反向传播和其他的微分算法17565.1计算图..176652微积分中的链式法则17665.3递归地使用链式法则来实现BP178654全连接MLP中BP的计算18065.5符号到符号的导数181仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录VIl6.5.6般化的BP183657实例:用于MLP训练的BP1886.5.8复杂化190659深度学习界以外的微分1916.5.10高阶微分1926.6历史小记193第七章深度学习中的正则化技术1967.1参数范数惩罚1977.1.12参数正则化1987.1.21参数正则化2017.2作为约束的范数惩罚2037.3正则化和欠约束问题2057.4数据集增强2067.5噪声鲁棒性2077.5.1向输出目标注入噪声2087.6半监督学习2087.7多任务学习2098提前终止2107.9参数绑定和参数共享216791卷积神经网络2177.10稀疏表示217711 Bagging和其他集成方法2197.12 Dropout.,2217.13对抗训练2297.14切面距离、正切传播和流形正切分类器231第八章深度模型中的优化2348.1学习和纯优化有什么不同2348.1.1经验风险最小化2358.1.2替代损失函数和提前终止..2368.13 batch算法和 minibatch算法236仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录8.2神经网络优化中的挑战2408.21病态.,2418.22局部极小值2428.2.3高原、鞍点和其他平坦区域2438.2.4悬崖和梯度爆炸2458.25长期依赖..2468.2.6非精确梯度2478.27局部和全局结构间的弱对应247优化的理论限制24983基本算法2508.3.1随机梯度下降250832动量25283.3 Nesterov动量2558.4参数初始化策略25585具有自适应学习速率的算法2608.5.1 Adagrad260RMSProp·2618.5.3 Adam2628.5.4选择正确的优化算法26286二阶近似方法2648.6.1牛顿法2658.6.2共轭梯度..2668.6.3 BFGS2698.7优化策略和元算法2708.7.1 Batch normalization2708.72坐标下降2738.7.3 Polyak平均2738.74监督预训练2748.7.5设计有助于优化的模型27687.6连续方法和课程学习277第九章卷积神经网络2809.1卷积运算281仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录IX9.2动机2839.3池化2899.4卷积与池化作为一种无限强的先验2949.5基本卷积函数的变体2959.6结构化输出3059.7数据类型3069.8高效的卷积算法3089.9随机或无监督的特征3099.10卷积神经网络的神经科学基础3109.11卷积神经网络与深度学习的历史316第十章序列建模:循环和递归网络31810.1展开计算图10.2循环神经网络32210.2.1 Teacher Forcing和输出循环网络32510.22计算循环神经网络的梯度32710.2.3作为有向图模型的循环网络32810.2.4基于上下文的RNN序列建模33210.3双向RNN33410.4基于编码-解码的序列到序列架构33610.5深度循环网络33810.6递归神经网络339107长期依赖的挑战34110.8回声状态网络34310.9渗漏单元和其他多时间尺度的策略34510.9.1时间维度的跳跃连接34510.9.2渗漏单元和一系列不同时间尺度34510.9.3删除连接34610.10长短期记忆和其他门控RNN34710.10.1LSTM34710.10.2其他门控RNN34910.11优化长期依赖35010.11.1截断梯度351仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录10.11.2引导信息流的正则化35310.12外显记忆353第十一章实用方法35711.1性能度量35811.2默认的基准模型36011.3是否收集更多数据36111.4选择超参数36211.4.1手动调整超参数36211.4.2自动超参数优化算法36511.4.3网格搜索36611.4.4随机搜索36711.4.5基于模型的超参数优化36811.5调试策略36911.6示例:多位数字识别372第十二章应用37512.1大规模深度学习37512.1.1快速的CPU实现37612.1.2GPU实现376121.3大规模的分布式实现37812.1.4模型压缩37912.1.5动态结构38012.1.6深度网络的专用硬件实现38212.2计算机视觉383122.1预处理383122.1.1对比度归一化384122.2数据集增强387123语音识别388124自然语言处理12.4.1-gram39112.4.2神经语言模型392