新闻中心

  • 教育平台
  • 教育心理学注册

联系我们

主营:

  • 教育平台
  • 联系人:魏先生

    手机:13801139

    QQ:645285

    邮箱:shy教育心理学注册@163.com

    电话:86-021-69772512
    网址:http://www.hzdbsofa.com

    地址:上市青浦工业北青公99号

    您的当前位置:教育心理学 > 教育平台 > 文章内容
    教育心理学iOS

    Python3实战Spark大数据分析及调度 完整版

    点击次数:92 更新时间:2019-05-18

    课程目录:第1章课程介绍课程介绍1-1PySpark导学1-2OOTB环境演示第2章实战环境搭建工欲善其事必先利其器,本章讲述JDK、Scala、Hadoop、Maven、Python3以及Spark源码编译及部署2-1-课程目录2-2-Java环境搭建2-3-Scala环境搭建2-4-Hadoop环境搭建2-5-Maven环境搭建2-6-Python3环境部署2-7-Spark源码编译及部署第3章SparkCore核心RDD本章详细讲解RDD是什么以及特性(面试常考)、Spark中两个核心类SparkContext和SparkConf、pyspark启动脚本分析、RDD的创建方式以及如何使用IDE开发PythonSpark应用程序并提交到服务器上运行3-1-课程目录3-2-RDD是什么3-3-通过电影描述集群的强大之处3-4-RDD的五大特性3-5-RDD特性在源码中的体现3-6-图解RDD3-7-SparkContextSparkConf详解3-8-pyspark3-9-RDD创建方式一3-10-RDD创建方式二3-11-使用IDE开发pyspark应用程序3-12-提交pyspark作业到服务器上运行第4章SparkCoreRDD编程本章将针对RDD中常用的算子进行详细案例讲解,并进行综合案例实战4-1-课程目录4-2-RDD常用操作4-3-map算子使用详解4-4-filter算子详解4-5-flatMap算子详解4-6-groupByKey算子详解4-7-reduceByKey算子详解4-8-sortByKey算子详解4-9-union算子使用详解4-10-distinct算子使用详解4-11-join算子详解4-12-action常用算子详解4-13-算子综合案例实战一词频统计4-14-算子综合案例实战之词频统计重构4-15-算子综合案例实战之TopN统计4-16-算子综合案例实战之平均数统计第5章Spark运行模式本章将介绍Spark的几种运行模式,需要重点掌握onYARN模式5-1-课程目录5-2-local模式运行5-3-standalone模式环境搭建及pyspark运行5-4-standalone模式spark-submit运行5-5-yarn运行模式详解第6章SparkCore进阶本章将介绍Spark中的核心术语、运行架构、并对比Spark和MapReduce的概念区分、存储策略及选择方式、宽窄依赖及Shuffle6-1-课程目录6-2-Spark核心概念详解6-3-结合SparkUI详解Spark核心概念6-4-Spark运行架构及注意事项6-5-Spark和Hadoop重要概念区分6-6-Spark缓存的作用6-7-Spark缓存概述6-8-Spark缓存策略详解6-9-Spark缓存策略选择依据6-10-SparkLineage机制6-11-Spark窄依赖和宽依赖6-12-SparkShuffle概述6-13-图解RDD的shuffle以及依赖关系第7章SparkCore调优本章将从Spark作业性能指标、序列化、内存管理、广播变量及数据本地化这几个方面来介绍Spark作业的调优7-1-课程目录7-2-优化之HistoryServer配置及使用7-3-优化之序列化7-4-优化之内存管理7-5-优化之广播变量7-6-优化之数据本地性第8章SparkSQL本章将讲解SparkSQL的架构、DataFrameDataset、以及如何使用PythonAPI来对DataFrame进行编程8-1-课程目录8-2-SparkSQL前世今生8-3-SparkSQL概述错误认识纠正8-4-SparkSQL架构8-5-DataFrameDataset详解8-6-DataFrameAPI编程8-7-RDD与DataFrame互操作方法一8-8-RDD与DataFrame互操作方法二8-9-SparkSQL其他第9章SparkStreaming本章将讲解SparkStreaming的核心概念、执行原理、以及如何PythonAPI来对SparkStreaming进行编程9-1-课程目录9-2-SparkStreaming概述9-3-实时流处理框架对比9-4-SparkStreaming执行原理9-5-从词频统计案例来了解SparkStreaming9-6-核心概念之StreamingContext9-7-核心概念之DStream及常用操作9-8-SparkStreaming操作文件系统数据实战第10章Azkaban基础篇本章将讲解Azkaban的特性、架构、运行模式、源码编译及部署、快速入门10-1Azkaban基础篇课程目录10-2-工作流概述10-3-工作流在大数据处理中的重要性10-4-常用调度框架介绍10-5-Azkaban概述及特性10-6-Azkaban架构10-7-Azkaban运行模式详解10-8-Azkaban源码编译10-9-Azkabansoloserver环境部署10-10-Azkaban快速入门案例第11章Azkaban实战篇本章将讲解如何使用Azkaban来完成HDFS、MapReduce、Hive作业的调度、定时作业调度以及邮件告警11-1-Azkaban实战篇课程目录11-2-依赖作业在Azkaban中的使用11-3-HDFS作业在Azkaban中的使用11-4-MapReduce作业在Azkaban中的使用11-5-Hive作业在Azkaban中的使用11-6-定时调度作业在Azkaban中的使用11-7-邮件告警及SLA在Azkaban中的使用第12章Azkaban进阶篇本章将讲解Azkaban在生产上的部署、权限管理、AjaxAPI、Plugin、以及短信和调度框架的二次开发12-1-Azkaban进阶篇课程目录12-2-TwoServerMode之数据库准备工作12-3-TwoServerMode之AzkabanWebServer搭建12-4-TwoServerMode之AzkabanExecServer搭建12-5-TwoServerMode之使用实战12-6-Azkaban权限管理12-7-Azkaban中AJAXAPI使用12-8-AzkabanPlugin的使用12-9-Azkaban中短信告警改造思路12-10Azbakan在生产上使用的改造思路第13章项目实战本章将讲解在构建大数据平台的技术选型、集群升级资源评估,并使用Spark对气象数据进行分析,讲分析结果写入ES,并通过Kibana进行统计结果的可视化展示13-1-课程目录13-2-大数据项目开发流程13-3-大数据企业级应用13-4-企业级大数据分析平台13-5-集群数据量预估13-6-集群机器规模资源作业规划13-7-项目需求13-8-数据加载成DataFrame并选出需要的列13-9-SparkSQLUDF函数开发13-10-每年Grade出现的次数统计13-11-Grade在每年中的占比统计13-12-ES部署及使用13-13-Kibana部署及使用13-14-将作业运行到YARN上13-15-统计分析结果写入ES测试13-16-统计分析结果入ES并通过Kibana图形化展示13-17-作业13-18-通过Azkaban调度整个流程13-19-课程总结及展望(重点关注)下载地址:游客,如果您要查看本帖隐藏内容请。

    上一篇:6月国内轿车销量分析:合资品牌优势显著 下一篇:省河长办检查肇庆全面推行河长制湖长制工作