Chapter 17 Introduction

现在我们已经配备了强大的编程工具,终于可以回到建模了。

data-science-model

模型的目标是提供数据集的简单低维摘要。理想情况下,该模型将捕获真正的 “信号”(即由感兴趣现象产生的模式),并忽略 “噪声”(即我们不感兴趣的随机变化)。

  • 模型基础知识中,我们将了解模型如何工作,重点介绍重要的线性模型系列。

  • 模型构建中,我们将学习如何使用模型在实际数据中提取已知模式。

  • 许多模型中,我们将学习如何使用许多简单模型来帮助理解复杂的数据集。注意学习时多加结合建模和编程工具。

17.1 认知

传统的来说,建模的重点是推理,或确认假设是正确的。因此我们需要形成两个必要的观念:

  1. 每个观测值既可以用于探索,也可以用于确认,而不能两者兼而有之。
  2. 我们可以根据需要多次使用观测值进行探索,但只能使用一次进行确认。一旦使用观察结果两次,我们就算已经从确认切换到了探索。