最简单的深度学习入门书《动手学深度学习》

就在几年前,不管在大公司还是创业公司,都鲜有工程师和科学家来将深度学习应用到智能产品与服务中。作为深度学习前身的神经网络,才刚刚摆脱被机器学习学术界认为是过时工具的印象。那个时候,即使是机器学习也非新闻头条的常客。它仅仅被看作是一门具有前瞻性,并拥有一系列小范围实际应用的学科。在包含计算机视觉和自然语言处理在内的实际应用通常需要大量的相关领域知识:这些实际应用被视为相互独立的领域,而机器学习只占其中一小部分。

然而仅仅在这几年之内,深度学习便令全世界大吃一惊。它非常有力地推动了计算机视觉、自然语言处理、自动语音识别、强化学习和统计建模等多个领域的快速发展。随着这些领域的不断进步,我们现在可以制造自动驾驶的汽车,基于短信、邮件甚至电话的自动回复系统,以及在围棋中击败最优秀人类选手的软件。这些由深度学习带来的新工具也正产生着广泛的影响:它们改变了电影制作和疾病诊断的方式,并在从天体物理学到生物学等各个基础科学中扮演越来越重要的角色。

与此同时,深度学习也给它的使用者们带来了独一无二的挑战:任何单一的应用都汇集了各学科的知识。具体来说,应用深度学习需要同时理解:

问题的动机和特点;

  • 将大量不同类型神经网络层通过特定方式组合在一起的模型背后的数学原理;
  • 在原始数据上拟合极复杂的深层模型的优化算法;
  • 有效训练模型、避免数值计算陷阱以及充分利用硬件性能所需的工程技能;
  • 为解决方案挑选合适的变量(超参数)组合的经验。

同样,我们几位作者也面临前所未有的挑战:我们需要在有限的篇幅里糅合深度学习的多方面知识,从而使读者能够较快理解并应用深度学习技术。本书代表了我们的一种尝试:我们将教给读者概念、背景知识和代码;我们将在同一个地方阐述剖析问题所需的批判性思维、解决问题所需的数学知识,以及实现解决方案所需的工程技能。

为什么选择阅读这本书:

  • 书的每一章用文字、数学、图示和代码来多方面介绍一个知识点。它是一个Jupyter记事本,可以独立运行。包含20个左右的文字和代码块,可以15分钟左右读完。(见下图)
  • 源文件是Markdown,不保存执行输出,并开源在Github上。这样方便更多人贡献和改动审阅,同时可以很容易的不断加新章节。
  • 任何改动都会触发持续集成服务重新执行记事本来获得执行输出,这样保证代码的正确性。一个记事本的执行时间控制在不超过十分钟。这对展示复杂模型的训练颇为挑战。
  • 执行无误后直接用三种格式发布在网上:含有执行输出的Jupyter记事本,可以直接浏览的HTML,和适合打印的PDF。
  • 可以像LaTeX那样方便的索引图、表、公式和文献。
  • 每一章都有可以讨论的链接。

与著名的Goodfellow、Bengio和Courville的《深度学习》对比及优势

Goodfellow、Bengio和Courville的《深度学习》。该书梳理了深度学习背后的众多概念与方法,是一本极为优秀的教材。然而,这类资源并没有将概念描述与实际代码相结合,以至于有时会令读者对如何实现它们感到毫无头绪。除了这些以外,商业课程提供者们虽然制作了众多的优质资源,但它们的付费门槛令不少用户望而生畏。

正因为这样,深度学习用户,尤其是初学者,往往不得不参考来源不同的多种资料。例如,通过教科书或者论文来掌握算法及相关数学知识,阅读线上文档学习深度学习框架的使用方法,然后寻找感兴趣的算法在这个框架上的实现,并摸索如何将它应用到自己的项目中去。如果你正亲身经历这一过程,你可能会感到痛苦:不同来源的资料有时难以相互一一对应,即便能够对应也可能需要花费大量的精力。例如,我们需要将某篇论文公式中的数学变量与某段网上实现中的程序变量一一对应,并在代码中找到论文可能没交代清楚的实现细节,甚至要为运行不同的代码安装不同的运行环境。

针对以上存在的痛点,我们正在着手创建一个为实现以下目标的统一资源:

  • 所有人均可在网上免费获取;
  • 提供足够的技术深度,从而帮助读者实际成为深度学习应用科学家——既理解数学原理,又能够实现并不断改进方法;
  • 包含可运行的代码,为读者展示如何在实际中解决问题,这样不仅直接将数学公式对应成实际代码,而且可以修改代码、观察结果并及时获取经验;
  • 允许我们和整个社区不断快速迭代内容,从而紧跟仍在高速发展的深度学习领域;
  • 由包含有关技术细节问答的论坛作为补充,使大家可以相互答疑并交换经验。

亚马逊首席科学家李沐等大师作品

本书四位作者均是亚马逊科学家,对人工智能领域颇具口碑,李沐老师被众多粉丝喜爱更多的来源于他的口碑公开课,纯中文的授课方式得到了大家的普遍认可。

阿斯顿张(Aston Zhang)

亚马逊应用科学家,美国伊利诺伊大学香槟分校计算机科学博士,统计学和计算机科学双硕士。他专注于机器学习的研究,并在数个顶级学术会议发表过论文。他担任过NeurIPS、ICML、KDD、WWW、WSDM、SIGIR、AAAI 等学术会议的程序委员或审稿人以及Frontiers in Big Data 期刊的编委。

李沐(Mu Li)

亚马逊首席科学家(Principal Scientist),加州大学伯克利分校客座助理教授,美国卡内基梅隆大学计算机系博士。他专注于分布式系统和机器学习算法的研究。他是深度学习框架MXNet 的作者之一。他曾任机器学习创业公司Marianas Labs 的CTO 和百度深度学习研究院的主任研发架构师。他在理论、机器学习、应用和操作系统等多个领域的顶级学术会议(包括FOCS、ICML、NeurIPS、AISTATS、CVPR、KDD 、WSDM、OSDI)上发表过论文。

扎卡里·C. 立顿(Zachary C. Lipton)

亚马逊应用科学家,美国卡内基梅隆大学助理教授,美国加州大学圣迭戈分校博士。他专注于机器学习算法及其社会影响的研究,特别是在时序数据与序列决策上的深度学习。这类工作有着广泛的应用场景,包括医疗诊断、对话系统和产品推荐。他创立了博客“Approximately Correct”(http://approximatelycorrect.com)。

亚历山大·J. 斯莫拉(Alexander J. Smola)

亚马逊副总裁/ 杰出科学家,德国柏林工业大学计算机科学博士。他曾在澳大利亚国立大学、美国加州大学伯克利分校和卡内基梅隆大学任教。他发表了超过200 篇学术论文,并著有5 本书,其论文及书被引用超过10 万次。他的研究兴趣包括深度学习、贝叶斯非参数、核方法、统计建模和可扩展算法。

内容和结构

本书内容大体可以分为3个部分。

第一部分(第1章~第3章)涵盖预备工作和基础知识。第1章介绍深度学习的背景。第2章提供动手学深度学习所需要的预备知识,例如,如何获取并运行本书中的代码。第3章包括深度学习最基础的概念和技术,如多层感知机和模型正则化。如果读者时间有限,并且只想了解深度学习最基础的概念和技术,那么只需阅读第一部分。

第二部分(第4章~第6章)关注现代深度学习技术。第4章描述深度学习计算的各个重要组成部分,并为实现后续更复杂的模型打下基础。第5章解释近年来令深度学习在计算机视觉领域大获成功的卷积神经网络。第6章阐述近年来常用于处理序列数据的循环神经网络。阅读第二部分有助于掌握现代深度学习技术。

第三部分(第7章~第10章)讨论计算性能和应用。第7章评价各种用来训练深度学习模型的优化算法。第8章检验影响深度学习计算性能的几个重要因素。第9章和第10章分别列举深度学习在计算机视觉和自然语言处理中的重要应用。这部分内容读者可根据兴趣选择阅读。

图0-1描绘了本书的结构,其中由A章指向B章的箭头表明A章的知识有助于理解B章的内容。

图0-1 本书的结构

《动手学深度学习 (平装)》

作者:阿斯顿·张(Aston Zhang) 李沐(Mu Li)[美] 扎卡里 C. 立顿(Zachary C. Lipton)[德] 亚历山大 J. 斯莫拉(Alexander J. Smola)

编辑推荐

  • 亚马逊科学家李沐等重磅作品;
  • 交互式实战环境下动手学深度学习的全新模式,原理与实战完美结合
  • 韩家炜/Bernhard Schölkopf/周志华/张潼/余凯/漆远/沈强 联袂推荐
  • 加州大学伯克利等全球15 所知名大学用于教学

本书旨在向读者交付有关深度学习的交互式学习体验。书中不仅阐述深度学习的算法原理,还演示它们的实现和运行。与传统图书不同,本书的每一节都是一个可以下载并运行的 Jupyter记事本,它将文字、公式、图像、代码和运行结果结合在了一起。此外,读者还可以访问并参与书中内容的讨论。