如果1609年已经有机器学习技术,开普勒会发现他的定律吗?还是他会满足于黑盒回归模型的准确性,导致牛顿没有灵感去发现万有引力定律?在这篇论文中,我将对物理科学领域中机器学习及其应用进行回顾,重点讨论其中一个主要问题:缺乏可解释性。过度参数化的黑盒模型容易在训练数据中记住伪相关,不仅威胁到科学研究进展,也剥夺了科学家的符号操纵和逻辑推理工具。为了解决这个问题,我将介绍一种可解释机器学习框架,结合物理驱动的归纳偏差和名为“符号提炼”的新技术。这些方法的结合可以将训练好的神经网络模型转换为可解释的符号表达式。首先,我将讨论执行这种提炼的深度学习策略,然后回顾“符号回归”算法,它使用进化算法优化符号表达式。具体而言,我将介绍我的PySR/SymbolicRegression.jl软件包,它是一个易于使用的高性能符号回归包,适用于Python和Julia。此外,我还将探讨物理驱动的归纳偏差,它可以使这种技术更加高效。在论文的后半部分,我将回顾可解释机器学习技术在天体物理学中的应用,包括宇宙学中的宇宙空洞和计算流体动力学中的……(内容截断)