数据分析实用教程

数据分析实用教程
编辑推荐

《数据分析实用教程》系SAS中国团队作品,清华、北大等高校之选。

本书具有如下特点。

(1)内容全面,兼顾广度和深度。本书根据实战要求,将统计学、多元统计学和SAS编程技术这三门课程有机地结合起来,概念、思想脉络讲解清楚,让学生能够真正地理解这门课程。

(2)实战性强。本书针对不同的实战案例进行分析和总结,有SAS 程序运行的结果,使之具有较强的可操作性,便于读者理解和研习。学生学完以后,有能力完成一个实战性的大课题,并参加答辩。

(3)适合作为教材。有相应的课件、练习数据集和作业搭配,节省教师大量的时间去组织内容和写讲稿。大学开设本课程,可以获得SAS 免费的软件支持。

 
内容简介

本书共 14 章,内容涵盖:统计学的基本概念、推断性统计的相关理论和实例、方差分析、相关分析与回归分析、Logistic 回归、主成分分析与因子分析、聚类分析、判别分析、时间序列分析、SAS 编程基础、宏的概念和应用原理及上机练习指导。本书内容全面,汇集了统计学、多元统计学和 SAS 编程技术的核心内容。本书针对不同的实战案例进行分析和总结,并展示了程序运行的结果,使之具有较强的可操作性,便于读者理解和研习。本书可作为各行业数据分析师的应用参考书、开设数据分析课程的高校中的教师讲义,以及希望进入数据分析领域的人员的自学读物。

作者简介

刘政博士 SAS中国研发中心总经理,负责此全球研发中心的整体运作;19年的外资企业经营和项目管理经验,丰富的信息技术和数据科学教育经验;中国软件行业协会理事,中国计算机学会大数据专家委员,清华大学大数据硕士项目教育指导委员会主任,中科院深圳先进技术研究院硕士研究生导师,北京大学、清华大学、中国科学技术大学讲席教授。

巫银良 SAS 中国研发中心技术总监,主要负责SAS 可视化分析(VA)、可视化数据挖掘与机器学习(VDMML)、商业智能和移动应用等产品线的研发管理。拥有近20年的计算机行业研发和管理经验,在企业应用和商业数据分析领域有着深厚的技术功底,著有《SAS技术内幕:从程序员到数据科学家》(2018)一书。北京大学《统计分析与商务智能》课程主讲。

左春琦 SAS中国研发中心自然语言处理软件开发工程师。北京大学、清华大学数据分析课程助理讲师。SAS中国数据分析大赛出题委员会委员。

李岚 SAS中国研发中心测试经理。十余年软件研发测试经验,涉及商业智能、数据分析、可视化展现、机器学习等各领域。北京大学《统计分析与商务智能》课程SAS编程讲师。

 

马晓丽  SAS 中国研发中心项目经理。十余年软件开发和项目管理经验,熟悉SAS风险管理解决方案以及SAS编程。清华大学《数据分析与优化建模》课程SAS编程讲师。参与SAS Little Book中文版翻译。

目  录

第1 章 描述性统计 . 1
1.1 统计学的发展历史 1
1.2 统计学的基础知识 4
1.3 连续型随机变量的概率分布 18
1.4 概率与二项分布 26
1.5 两大极限定理 33
1.6 数据类型与图示 38

第2 章 推断性统计:参数估计 45
2.1 推断性统计概述 45
2.2 点估计 46
2.3 区间估计 54

第3 章 推断性统计:假设检验 69
3.1 假设检验 69
3.2 参数检验 76
3.3 置信区间检验和P 值检验 91
3.4 非参数检验 94
3.5 非参数检验——符号检验法 95
3.6 非参数检验——秩和检验 98

第4 章 方差分析 108
4.1 方差分析的提出 108
4.2 单因素方差分析 111
4.3 双因素方差分析的概念及其基本假定 123
4.4 多因素方差分析 132

第5 章 相关分析与回归分析 140
5.1 相关分析 140
5.2 回归分析 150
5.3 简单线性回归 150
5.4 多元线性回归 159
5.5 可变换为线性回归的曲线回归 174

第6 章 Logistic 回归 175
6.1 交叉表分析 175
6.2 一元Logistic 回归 184
6.3 多元Logistic 回归 192
6.4 有交互效应的多元Logistic 回归 196

第7 章 主成分分析与因子分析 202
7.1 主成分分析的概念与原理 202
7.2 主成分分析SAS 实例 209
7.3 因子分析 219
7.4 因子分析SAS 实例 227

第8 章 聚类分析 234
8.1 聚类与分类的区别 234
8.2 案例:消费者分类问题 234
8.3 聚类分析概述 235
8.4 层次聚类 240
8.5 K 均值聚类 246
8.6 确定聚类数 256

第9 章 判别分析 266
9.1 判别分析基础 266
9.2 距离判别法 269
9.3 贝叶斯判别法 279
9.4 Fisher 判别法 301

第10 章 时间序列分析 310
10.1 时间序列基础 310
10.2 描述性分析与预测方法 315
10.3 平稳序列的预测 327
10.4 趋势序列的预测 335
10.5 复合序列的预测 351

第11 章 SAS 编程基础 375
11.1 SAS 基础 375
11.2 使用SAS 分析数据 387
11.3 SAS 处理数据集原理 413

第12 章 SAS 编程进阶 423
12.1 读取原始数据(文本)文件 423
12.2 访问Excel 工作表 436
12.3 创建自定义格式 438
12.4 使用SAS 函数 440
12.5 有条件处理 451
12.6 PROC SQL 简介 453

第13 章 SAS 宏编程 458
13.1 SAS 宏简介 458
13.2 熟悉SAS 宏变量 459
13.3 如何编译宏语言 469
13.4 宏程序简介 474
13.5 在数据操作中使用宏(案例研究) 479
13.6 间接引用宏变量 494

第14 章 SAS Enterprise Guide 操作应用 497
14.1 SAS Enterprise Guide 简介 497
14.2 SAS Enterprise Guide 上机练习 498

前  言

2012 年大数据的概念在社会上刚刚开始传播,这时,北京大学信息科学技术学院的张铭教授问我是否可以在北京大学开设一门数据分析课程。经过我们积极的准备,“统计分析与商务智能”课程于当年的秋季在北京大学开课了。

统计学的数学基础是创建在17 世纪布莱兹·帕斯卡和皮埃尔·德·费马发展的概率论之上的。运筹学在第二次世界大战时得到了广泛应用和发展,被用于战时资源的调配和人员调动。计量经济学起源于20 世纪50 年代的美国。这些学科的核心是数据分析,而数据分析真正在现代生活中获得广泛应用则开始于和计算机技术的结合。现代计算机技术极大地提高了数据处理速度和解决复杂问题的能力,人们由此发明了许多过去无法用人工计算的数学模型。1966 年,美国农业部委托南方8 所大学开发统计分析软件,用于分析农业数据,由此,开启了统计软件时代。然而数据分析一直是高高在上的领域,非专业人员很少涉猎其中,因此名气不大。20 世纪80 年代出现了个人计算机,软件开发变得热门;20世纪90 年代互联网开始兴起,数据库在企业中被广泛使用,办公实现了自动化;21 世纪CRM 和ERP 开始流行,同时互联网应用也得到了爆炸式的增长,尤其是电子商务、社交媒体和移动互联网的出现。这些技术进步、业务发展带来了一个同样的结果,那就是数据量开始急剧地增加,并散布于世界的各个角落。人们现在的一切行为几乎都会留下数据痕迹,如使用手机、在超市买东西、日常各种消费、出行(道路监控、出入关记录)等。全世界的数据累积已经超过了 40ZB 的量级。大数据时代就是数据分析时代,如果没有数据分析,大数据就是占据大量存储资源的废物。

数据记录了很多事情的发生过程和状态。而一件事情的发生会受很多因素的影响,这些因素的内在联系是什么,如何影响事情的发展,都可以用数据记录下来。人们希望通过对数据的分析,找到事情发生的来龙去脉,以便预测将来的发展。为此,人们找到了很多方法研究数据,如统计学、计量经济学、时间序列分析、运筹学、概率论等数学方法,以及可视化技术、各种辅助的计算机技术和算法。数据分析不仅在各行各业得到了应用,还可以作为一种主要方法进行科学研究。数据分析也能开辟新的应用,建立新的行业。

大数据和计算机技术、互联网一样,具有普适性和通用性,各行各业都需要,不仅传统行业需要,而且是新兴行业的依托。大数据技术的出现使得物联网、云计算、人工智能得以变成现实。所以,大数据是计算机时代、互联网时代后,能够真正撑得起一个时代的技术。

如今,大数据分析已经成为各领域追逐价值的重要手段,数据分析能力也成为各行各业的核心竞争力,而数据分析相关岗位的人才却呈现严重短缺的状况。对数据科学及数据分析人才短缺的预测五花八门,有预测100 多万的,也有预测1400 万的。这个差异来自增量数据和实际需求。增量数据就是用户需要增加的数据分析人员的数量,而实际需求除了包括增量数据,还包括对现有信息技术人员进行数据分析能力培养的人员数量。大数据时代到来了,社会上出现了各种相关的行业协会,各高等院校也纷纷建立了数据科学研究院,并开设了一系列的数据分析相关课程,其中统计分析相关的课程是核心,也是基础。在这个过程中,高等院校普遍遇到的难点就是课程内容的设置和相应教师的短缺。首先,不能走过去的老路:只讲统计,不讲分析;只有理论,没有实践;只有手工的简单计算,没有现代统计分析工具的支持。其次,要与当代的数据分析技术相结合,带给学生的分析方法和技术。后,要学完就会用,就能解决实际问题。

2017 年春季,我们接受清华大学数据科学研究院韩亦舜执行副院长的委托,在清华大学开设了“数据分析与优化建模”课程,报名的学生大多是各专业的研究生,甚至有清华大学美术学院的学生。经过8 年12 个学期在北大、清华两所高校的教学,通过反复打磨和不断提炼,我们定制编写了《数据分析实用教程》一书。我们希望这本书能够成为各高等院校教学的范本,各领域数据分析师的应用参考书,以及广大数据分析爱好者的自学用书。对读者来说,拥有一本详细阐述了数据分析的理论和实践方法,并深入阐述了数据分析技术,指导其用数据分析工具进行数据分析实战的图书,成为一种渴求,而本书正是这样一本书,相信它会给读者带来实实在在的收获。

目前国内市面上关于数据分析的图书众多且繁杂,个显著的特点是“散”,很多相关书籍只针对部分统计分析内容做了深入详细的探讨;第二个显著的特点是实用性不强,广大读者在研读完成后并不能迈出分析应用的步,他们至少要研读几本书才可以,而这要花费大量的阅读时间。

本书具有如下特点。

(1)抓住了大数据分析热点。大数据分析是大数据时代的技能,已经成为各领域的核心竞争力。人才短缺是各企业的痛点。一本好的教材是使学生快速成才的关键。

(2)内容全面,兼顾广度和深度。本书根据实战要求,将统计学、多元统计学和SAS编程技术这三门课程有机地结合起来,概念、思想脉络讲解清楚,让学生能够真正地理解这门课程。

(3)实战性强。本书针对不同的实战案例进行分析和总结,有SAS 程序运行的结果,使之具有较强的可操作性,便于读者理解和研习。学生学完以后,有能力完成一个实战性的大课题,并参加答辩。

(4)适合自学。本书的编写和组织概念清晰,简单易懂,思路明晰,理论直达要点核心,示例更贴近实用性。

(5)适合作为教材。有相应的课件、练习数据集和作业搭配,节省教师大量的时间去组织内容和写讲稿。大学开设本课程,可以获得SAS 免费的软件支持。

本书主要适用于:

(1)各行业数据分析师的应用参考书。

(2)大专院校在校学生的教材。

(3)希望开设数据分析课程高校教师的讲义。

(4)希望进入数据分析领域人员的参考书。

(5)行业高管熟悉分析业务的参考书。

本书共14 章,第1 章介绍了统计学的基本概念,并详细介绍了描述性统计中的正态分布、概率与二项分布、两大极限定理,以及数据类型与图示。第2 章和第3 章全面讲述了推断性统计的相关理论知识,并用大量实例帮助理解理论点,内容包括点估计、区间估计、假设检验、参数检验等。第4 章介绍了方差分析的基本概念,以及单因素、双因素和多因素方差分析。第5 章主要介绍了相关分析、回归分析、简单线性回归、多元线性回归、可变换为线性回归的曲线回归。第6 章涉及交叉表分析、Logistic 回归、多元Logistic回归、有交互效应的多元Logistic 回归等内容。第7 章讲述了主成分分析的基本思想、数学模型与几何解释、主成分的推导与性质、主成分分析的步骤、主成分分析的例子,因子分析和因子分析SAS 实例。第8 章集中介绍了聚类分析的理论基础、层次聚类、K 均值聚类及确定聚类数等内容。第9 章介绍了判别分析基础、距离判别法、贝叶斯判别法、Fisher 判别法的理论和实例。第10 章介绍了什么是时间序列及其分解方法,并详细阐述了时间序列的描述性分析、预测程序、平稳序列的预测、趋势序列的预测、季节性序列的预测、复合序列的分解预测,以及周期性分析等内容。第11~13 章是SAS 编程基础,内容主要涉及编程基础知识、如何使用SAS 读取数据(文本文件、Excel 文件等)、处理数据(条件处理、自定义格式、SAS 函数等)、分析数据(报告输出)及背后的运行机制。除此之外,还着重介绍了SAS 宏的概念和应用原理、宏变量和宏定义及应用语法。第14 章介绍了使用SAS 编程进行数据分析的重要分析工具SAS Enterprise Guide 产品的功能展示和上机练习指导。

本课程通常需要15 到16 次课,每次3 小时。第1 次课会讲第1 章,讲解统计学的基本概念;第2 次课讲第11 章,介绍SAS 编程基础;第3 次课讲第14 章,是上机课,学会SAS 软件配置和使用SAS Enterprise Guide,为后续的课程打好基础;第4 次和第5 次课分别讲第12 章和第13 章。接下来,从第2 章开始,按照顺序讲。本书提供了14 章内容,而第15 次课通常是大课题的答辩环节。教师在课程完成前3 周,给出几个课题供大家选择,3 到4 名学生组成一组,选择一个课题进行实际操作。答辩主要考查学生对数据描述、数据处理、数据分析、结果展示和综合报告等几项主要技能的掌握。我们每学期会安排一些讲座,如“数据的可视化分析技术”“大数据”“机器学习”“企业数据分析与建模”等。

对于有意使用本书的各类学校,我们将提供免费的SAS 软件(仅限于高等院校)、各章作业的数据集和作业题(教师也可以自己出作业题)、PPT 格式的讲稿。

本书的完成来自整个创作团队的辛勤耕作。大家利用自己的休息时间,反复查阅资料,构思内容,完成配图,才使得这本书得以和各位读者见面。我在这里衷心地感谢大家的付出和各位家庭的支持。感谢那些以各种方式为本书的完成提供了帮助的同事和朋友。

SAS 公司在过去的几十年里,为行业贡献了各种里程碑式的产品,以及各种相应的图书和教学培训资料。在这里我们要感谢SAS 开发出来的优秀产品,感谢公司提供的工作学习环境和各种资料,以及对本书出版和员工参与中国高等人才教育的鼓励。

后,要特别感谢成都道然科技有限责任公司团队。感谢他们理解、支持我们的教学理念和学习方法,毅然接受了我们特定格式的出版请求,并为本书的出版付出了大量的努力;同时感谢他们的指导和帮助,以及提出的各种宝贵建议。

刘 政

2020 年10 月于北京

上一篇

SAS技术与内幕:从程序员到数据科学家

下一篇

SAS统计软件应用

十年磨砺-铸就行业品牌

合作伙伴

申请试用
TOP