数据科学入门
数据科学是对数据和信息进行分析以推断出见解的研究。它利用来自不同学术领域的工具和技术,如数学、计算机科学、信息科学以及领域知识,来分析数据并创建基于数据的观察结果、假设和结论。
这些假设或模型试图代表我们所看到的模式背后的规律。通过数据科学,我们现在能够更深入地理解数据,甚至尝试找出导致所观察和收集到的数据的根本原因。使用不同的观察结果对数据模型进行训练和持续更新,可以微调这些模型,并有助于更好地近似我们对所记录现象的理解。
因此,这些模型可以用于对新数据点进行分类、推断和预测,而这些新数据点并非原始训练数据的一部分。由于数据通常代表敏感、私人或机密信息,其积累、处理和见解有时也是私密的。因此,数据科学家通常被要求遵守各种隐私规定。限制和规范数据科学方法的相关法规。
–
无论是在泥板、纸莎草纸还是其他媒介上,人们都曾挖掘出记录,描绘了世界各地古代文明如何收集和汇总数据。尽管这些例子是迈向我们今天所称的 Data Science 数据科学(DS)的重要步骤,但它们并非现代 DS 的典型范例。
帕斯卡、费马、贝叶斯和高尔顿的贡献被认为是 DS 的先驱。尽管在 17 世纪、18 世纪和 19 世纪他们并未被正式称为数据科学家,但他们的工作代表了现代 DS 方法论的基础的不同步骤。
确实可以追溯历史,指出不同实例作为 DS 的早期范例,但只有在现代计算技术的引入之后,DS 才作为一个领域与统计学和信息科学明显区分开来。
–
随着计算能力的提升,科学家能够构建包含越来越多参数的更精确假设。
数据科学工作是一个循环。数据生命周期包含八个步骤,为数据科学工作提供了基本的结构和方法。
依次为:数据生成、收集、处理、存储、管理、分析、可视化和解释。
数据生成: 所观察到的事件、行为或现象的多维表现形式。无论是通过测量自然现象的传感器,记录人类或机器行为及活动的日志,还是捕捉瞬间的视频、图像、声音和文本,数据都在不断生成。数据的生成可能与数据科学工作的启动无关,例如,在任何数据科学家查看之前就已保存的数据日志。生成的数据也可能包含会使数据科学家工作复杂化的数据。例如,故障传感器可能会生成错误信息,或者人在填写调查问卷时可能会说谎。
收集: 对数据进行整理(确定与数据科学流程相关的数据)和抽样是重要的一步。由于在任何时刻数据都会以巨大的量生成,因此确定哪些数据最能服务于手头的任务至关重要。从实际角度来看,数据科学工作不能脱离数据科学家所掌握的资源来单独考虑。每个数据点都附带一定的成本,这种成本体现在获取、存储或处理的成本上。
“多少数据算‘过多’数据”这个问题通常是一个商业决策,需要确定在投入一定资源和时间后,更准确或更高效的模型所带来的收益是否值得。
处理: 一旦收集到数据,就应该对其进行处理,以便在后续阶段使用。这包括对数据进行格式化、清理、整合,以及压缩以降低存储成本,如果出于合规性要求,还需要对其进行加密。这可能是由于隐私法规的要求,或者出于商业保密的考虑。
存储: 在处理数据之后,应以一种能够方便快速访问的方式进行存储。存储应可靠、强大、可扩展、可访问、安全且性能良好。
管理: 数据管理是在数据生命周期中持续进行的努力,以确保存储数据库的成功运行,并优化其中的数据组织,以支持数据科学工作,例如,提高用于特定任务的各种 SQL 查询的响应时间。
分析: 在分析阶段,数据科学家会从存储的数据中提取结构和见解,基于数据进行假设和实验,训练一个能最好地描述数据的模型,并使用它来推断未来数据样本的见解。尽管机器学习可以在整个数据生命周期中使用,但在这一阶段它会被最为广泛地应用。机器学习提供了必要的工具,能够利用数据得出见解并学习可能过于复杂而无法用已知算法或公式描述的规律。
可视化: 在处理大量数据和复杂的机器学习模型时,人们很容易忘记数据科学项目的使用者往往是人。将结果可视化并创建图表、图形、图示和示意图,以便更好地传达所产生的见解,有时其重要性不亚于数字本身。