由Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大牛合著的 AI 新圣经。仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录致谢网站XXII数学符号第一章引言1.1本书面向的读者1.2深度学习的历史趋势1112.1神经网络的众多名称和命运变迁121.2.2与日俱增的数据量1.2.3与日俱增的模型规模1.2.4与日俱增的精度、复杂度和对现实世界的冲击22第一部分应用数学与机器学习基础25第二章线性代数272.1标量、向量、矩阵和张量2722矩阵和向量相乘.2923单位矩阵和逆矩阵3124线性相关和生成子空间3225范数342.6特殊类型的矩阵和向量362.7特征分解.37仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chineselV目录28奇异值分解3929 Moore- Penrose伪逆402.10迹运算41211行列式42212实例:主成分分析4第三章概率与信息论4731为什么要使用概率?473.2随机变量4933概率分布503.3.1离散型变量和概率质量函数3.3.2连续型变量和概率密度函数513.4边缘概率5235条件概率5236条件概率的链式法则5337独立性和条件独立性5338期望、方差和协方差.543.9常用概率分布.55391 Bernoulli分布56392 Multinoulli分布56393高斯分布573.9.4指数分布和 Laplace分布58395 Dirac分布和经验分布.5939.6分布的混合593.10常用函数的有用性质61311贝叶斯规则312连续型变量的技术细节643.13信息论653.14结构化概率模型69第四章数值计算724.1上溢和下溢.724.2病态条件73仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录4.3基于梯度的优化方法744.3.1梯度之上: Jacobian和 Hessian矩阵7744约束优化8245实例:线性最小二乘85第五章机器学习基础8751学习算法87511任务T.885.1.2性能度量P513经验E925.1.4示例:线性回归945.2容量、过拟合和欠拟合9752.1没有免费午餐定理.102522正则化.1045.3超参数和验证集1055.3.1交叉验证1065.4估计、偏差和方差.10854.1点估计.108542偏差109543方差和标准差11154.4权衡偏差和方差以最小化均方误差1135.4致性1145.5最大似然估计1155.5.1条件对数似然和均方误差1165.5.2最大似然的性质.1175.6贝叶斯统计.11856.1最大后验(MAP)估计1215.7监督学习算法.12257.1概率监督学习1225.72支持向量机12357.3其他简单的监督学习算法1255.8无监督学习算法.1285.8.1主成分分析.128仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chineseVI目录58.2k-均值聚类1315.9随机梯度下降1325.10构建机器学习算法1335.11促使深度学习发展的挑战1345.111维数灾难1355.11.2局部不变性和平滑正则化.1355113流形学习.139第二部分深度网络:现代实践143第六章深度前馈网络1456.1实例:学习XOR1486.2基于梯度的学习152621代价函数.1536.2.1.1使用最大似然学习条件分布.1546.2.1.2学习条件统计量.155622输出单元...1566.22.1用于高斯输出分布的线性单元15662.22用于 Bernoulli输出分布的 sigmoid单元1576223用于 Multinoulli输出分布的 softmax单元.1596.22.4其他的输出类型.1626.3隐藏单元16563.1整流线性单元及其扩展.,,,16663,2 logistic sigmoid与双曲正切函数1686.3.3其他隐藏单元169架构设计1706.4.1万能近似性质和深度1716.4.2其他架构上的考虑1746.5反向传播和其他的微分算法1756.5.1计算图1766.52微积分中的链式法贝1786.5.3递归地使用链式法则来实现反向传播179仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录V116.5.4全连接MLP中的反向传播计算8655符号到符号的导数1826.5.6一般化的反向传播1856.57实例:用于MLP训练的反向传播.188658复杂化1906.59深度学习界以外的微分.1916.510高阶微分.1936.6历史小记193第七章深度学习中的正则化1977.1参数范数惩罚1987.1.12参数正则化7.1.21参数正则化2027.2作为约束的范数惩罚2047.3正则化和欠约束问题2067.4数据集增强2077.5噪声鲁棒性2087.5.1向输出目标注入噪声2097.6半监督学习2097.7多任务学习21078提前终止21179参数绑定和参数共享2177.9.1卷积神经网络2187.10稀疏表示,.218711 Bagging和其他集成方法2207. 12 Dropout2227.13对抗训练.2307.14切面距离、正切传播和流形正切分类器232第八章深度模型中的优化2358.1学习和纯优化有什么不同2358.1.1经验风险最小化.2368.1.2代理损失函数和提前终止237仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录8.1.3批量算法和小批量算法2378.2神经网络优化中的挑战.241821病态2428.22局部极小值2438.2.3高原、鞍点和其他平坦区域2448.2.4悬崖和梯度爆炸.2468.25长期依赖2478.26非精确梯度2488.27局部和全局结构间的弱对应248828优化的理论限制25083基本算法..2518.3.1随机梯度下降2518.32动量253833 Nesterov动量2568.4参数初始化策略25685自适应学习率算法.2618.5.1 Adagrad.2615.2 RMSProp2628.5.3 Adam2628.5.4选择正确的优化算法.26386二阶近似方法.2658.6.1牛顿法2668.6.2共轭梯度2678.6.3 BFGS27087优化策略和元算法.2718.71批标准化2718.72坐标下降.2748.73 Polyak平均.274874监督预训练.2758.75设计有助于优化的模型2778.7.6延拓法和课程学习278仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录IX第九章卷积网络2819.1卷积运算2829.2动机2859.3池化2909.4卷积与池化作为一种无限强的先验2959.5基本卷积函数的变体2969.6结构化输出3069.7数据类型3079.8高效的卷积算法..3099.9随机或无监督的特征.3109.10卷积网络的神经科学基础9.11卷积网络与深度学习的历史317第十章序列建模:循环和递归网络31910.1展开计算图,.32010.2循环神经网络.32310.2.1导师驱动过程和输出循环网络.32610.22计算循环神经网络的梯度.32810.23作为有向图模型的循环网络33010.24基于上下文的RNN序列建模.33410.3双向RNN.33610.4基于编码解码的序列到序列架构.33810.5深度循环网络34010.6递归神经网络.34110.7长期依赖的挑战343108回声状态网络.34510.9渗漏单元和其他多时间尺度的策略,.34710.9.1时间维度的跳跃连接.34710.9.2渗漏单元和一系列不同时间尺度.34810.9.3删除连接34810.10长短期记忆和其他门控RNN34910.10.1LSTM.34910.10.2其他门控RNN.351仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录10.11优化长期依赖35210.11.1截断梯度.35310.112引导信息流的正则化.35510.12外显记忆.355第十一章实践方法论35911.1性能度量.36011.2默认的基准模型36211.3决定是否收集更多数据363114选择超参数36411.4.1手动调整超参数36411.42自动超参数优化算法.36711.4.3网格搜索.368114.4随机搜索36911.4.5基于模型的超参数优化37011.5调试策略37111.6示例:多位数字识别374第十二章应用37712.1大规模深度学习37712.1.1快速的CPU实现37812.1.2GPU实现12.1.3大规模的分布式实现.38012.1.4模型压缩.38112.1.5动态结构38212.1.6深度网络的专用硬件实现384122计算机视觉.385122.1预处理.385122.1.1对比度归一化38612.22数据集增强389123语音识别39012.4自然语言处理.39212.4.1 n-gram392