教 案
2023-2024学年第 一 学期
课程名称:并行与分布式计算实验
课程性质:实验课,必修课
授课学时:30学时
授课对象:大数据2021级辅修班
任课教师:彭玉旭
长沙理工大学计通学院
2023.9
全课程教案
一、基本信息
课程名称 | 并行与分布式计算实验 | 课程编号 | 0809010041 | 课程性质 | 实验课,必修课 | 学分 | 1 | ||
教学安排 | 总学时30。其中讲授 0学时,实验 30学时,上机 0学时,实训 0 学时 | ||||||||
授课时间:第 7周至第 14周 | 周学时 | 2 | |||||||
相关课程与环节 | 配套理论课《并行与分布式计算》48学时 | ||||||||
二、授课对象
基本情况 | 专业 | 计算机科学与计算辅修 | 年级 | 2021 | 班级 | 大数据2021级辅修班 | 修读人数 | 104 |
授课对象分析 | 大三学生;学习了相关理论基础; | |||||||
三、教学内容与安排
课程简介与要求 | 本实验课程紧密联系《并行与分布式计算》的理论教学,与之相同学期一起开设,主要讲授大数据并行与分布式计算框架Spark的基本实验。课程将安排最新流行的并行与分布式编程模型Spark的入门级实践操作,让学生更好地学习和掌握大数据关键技术。 | |||||||
课程目标 | 课程目标 | 支撑毕业要求指标点 | 与课程关联度 | |||||
1、掌握Spark环境搭建和使用方法。 2、综合利用Spark以及Spark生态软件编程实现综合实例。 3、熟悉Spark和Spark生态包括Spark SQL、Spark、Streaming Structured Streaming、Spark MLlib。 4、熟悉RDD编程,掌握RDD编程。 | 1.3掌握从事大数据软件理论与开发知识,具备大数据系统的开发能力。 | 中 | ||||||
3.2掌握数据建模、数据管理和分析、统计推断的基本理论与方法,具备大数据分析和决策支持的能力。 | 高 | |||||||
3.5了解大数据领域前沿知识和发展趋势,掌握基本创新方法,在解决大数据领域复杂工程问题中具有创新意识。 | 中 | |||||||
5.3选择与使用恰当的技术、资源和现代工程工具来解决大数据领域复杂工程问题。 | 中 | |||||||
课程思政 | 学习沟通、组织、团队合作的社会能力,培养学生安全、规范的专业素养以及一丝不苟的工匠精神 | |||||||
教学方法 | 以学生自主完成实验指导书指定的实验内容为主 | |||||||
实验名称 | 实验要求 | 课内学时 | 教学方式 | 实验内容 | 课外学习 | |||
基础环境 | 在自己电脑上安装单个环境,后面集群部署会用到,对实验过程进行截图,不得抄袭 | 2 | 实验 | spark开发环境部署的基础环境搭建,包含ubuntu 20.04 hadoop、spark的基础配置。
| 2 | |||
spark部署 | 能够独立完成spark的部署 | 2 | 实验 | 掌握hadoop及spark分布式部署的过程和方法 | 2 | |||
RDD基本操作 | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 2 | 实验 | pyspark的shell环境,hadoop的基本操作,spark RDD 的常用转换与动作命令 | 2 | |||
Hbase | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 2 | 实验 | hbase的安装;hbase的常用命令 | 2 | |||
读写Hbase | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 2 | 实验 | 利用python代码实现读Hbase表中的数据;向Hbase表中写入数据 | 2 | |||
DataFrame实验 | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 2 | 实验 | dataframee创建;dataframe的常用方法。 | 2 | |||
Spark SQL与数据库读写 | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 2 | 实验 | park SQL创建方法,Spark SQL与数据库读写的方法 | 2 | |||
Kafka与Spark Streaming | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 2 | 实验 | kafka安装;Spark Streaming读取kafka源 |
| |||
StructuredStreaming | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 2 | 实验 | socket数据源,StructuredStreaming的使用 | 2 | |||
机器学习决策树 | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 2 | 实验 | 特征处理;决策树模型训练和使用 | 2 | |||
淘宝双11数据分析与预测 | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 4 | 实验 |
| 2 | |||
基于零售交易数据的Spark数据处理与分析 | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 4 | 实验 |
|
| |||
基于信用卡逾期数据的Spark数据处理与分析 | 根据实验步骤进行操作不得抄袭指导书截图和其他同学的截图 | 4 | 实验 |
| 2 | |||
四、考核方式
考核项目 | 考核内容 | 考核方式 | 分值或占比 |
实验表现 | 考核现代工具的使用,实验方案的实现及对问题的分析能力 | 考勤、课堂讨论、课堂展示等 | 40 |
实验报告 | 实验报告的完成度;创新能力; | 实验报告 | 60 |
五、教学资源
推荐教材 | [1]林子雨.Spark编程基础(Python版).北京. 人民邮电出版社,2020 |
参考材料 | [1]王宇韬,房宇亮,肖金鑫.Python金融大数据挖掘与分析.北京:机械工业出版社,2019.9 [2] 陆化普.交通大数据分析与应用教程.北京:人民交通出版社,2020.9 [3] 朱晓峰.大数据分析与挖掘.北京:机械工业出版社,2021.8 |
课程资源 | 1、头哥平台:https://www.educoder.net/paths/whkv7uil 2、教材官网https://dblab.xmu.edu.cn/post/spark-python/ 3、教务处网络教学综合平台http://pt.csust.edu.cn/meol/jpk/course/blended_module/index.jsp?courseId=61468 |
教材分析与处理 | 选用教材的依据:本书配有免费的教学资源,在头哥平台有教学和实验环境 |
知识单元名称 | 基础环境 | 课次 | 第1讲 |
授课类型 | 理论课□讨论课□实验课☑ |