一、大数据处理技术-基于hadoop/yarn的实战(含spark、storm和docker应用介绍 )
本课程从大数据技术以及hadoop/yarn实战的角度,结合理论和实践,全方位地介绍hadoop/yarn这一高性能处理大数据工具的开发技巧。本课程涉及的主题包括:hadoop/yarn分布式文件系统dfs;mapreduce的的工作机制、类型和格式;如何构建和管理hadoop/yarn集群;pig latin语言的使用技巧;hive数据仓库工具介绍;hbase和zookeeper工具的使用和管理;开源数据采集工具sqoop。
本课程教学过程中还提供了案例分析来帮助学员了解如何用hadoop/yarn系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。
第一讲 云计算及大数据处理技术介绍
第二讲 google的关键技术
第三讲 hadoop系统及hdfs
第四讲 mapreduce计算模型设计
第五讲 pig 数据流处理工具
第六讲 云数据仓库hive
第七讲 hbase和nosql
第八讲 数据抽取工具sqoop
第九讲 hadoop与其他云数据处理技术的融合
二、大数据实时处理–基于spark的大数据实时处理及应用技术
课程中结合实例,介绍图工具graphx如何发现社交网络中的人际关系,大数据挖掘工具mllib如何进行商品聚类和电影推荐,以及streaming流挖掘工具,并探讨了spark与docker等云环境下新技术的结合,分析了其应用前景。
本课程教学过程中还提供了案例分析来帮助学员了解如何用spark实时大数据工具来解决业界的问题,并介绍了spark生产环境搭建的相关知识。
第一讲 spark大数据实时处理技术
第二讲 spark安装配置及监控
第三讲 scala编程语言使用概述
第四讲 spark分布式计算框架
第五讲 spark内部工作机制详解
第六讲 spark数据读取与存储
第七讲 spark通信模块和容错机制
第八讲 sql on spark
第九讲 spark流数据处理工具streaming
第十讲 spark中的大数据挖掘工具mllib
第十一讲 spark大规模图处理工具graphx
第十二讲 spark与其他大数据技术的融合与应用
三、storm大数据流式处理技术
本课程从大数据流式处理技术以及storm实战的角度,理论和实践相结合,全方位地介绍storm大数据流式处理工具的原理和内核。以案例分析的方式来帮助学员了解如何用bdas系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。
第一讲 storm大数据处理介绍
第二讲 storm配置和容错机制
第三讲 storm可靠性及消息传输
第四讲 storm拓扑及流分组
第五讲 spout和bolt详解
第六讲 分布式dprc
第七讲 storm事务拓扑
第八讲 storm中的trident
第九讲 trident的状态
第十讲 storm企业应用
四、大数据分布式存储系统
在大数据时代,很多企业的数据都是逐步积累的,这就要求存储系统有很好的横向扩展能力;而要对传统存储设备进行横向扩展,会带来很高的成本,但是分布式存储却能够比较好的解决这样的问题。
第一讲 分布式存储系统概述
第二讲 大数据集(超大文件)存储
第三讲 海量小文件存储
第四讲 分布式存储技术发展新动向和趋势
五、大数据前沿技术分析与应用
大数据相关技术最近几年出现了井喷的趋势,众多技术纷纷出现,典型的系统包括hadoop、spark、flume、scribe、kafka、storm、mahout、mllib、docker等,涵盖网络数据爬取、日志采集、分布式消息订阅、大数据分析挖掘等方面,涉及离线批处理、实时处理、流式处理等多种处理方式。这些技术解决不同的应用需求,涉及面广,技术要求高,交叉知识范围广,知识内容更新频繁,要理清其中的关系,从中发现最适合本机构的技术,成为了目前各机构技术专家的一个难点。
第一讲 大数据技术基础
第二讲 批处理大数据平台hadoop
第三讲 实时大数据平台spark
第四讲 流式大数据平台storm
第五讲 python网络爬虫
第六讲 大数据日志采集工具flume
第七讲 分布式消息订阅工具kafka
第八讲 nosql云数据处理工具
第九讲 大数据中的sql工具
第十讲 大数据分析挖掘工具
第十一讲 资源虚拟化工具docker
第十二讲 大数据技术展望
六、数据仓库与数据挖掘(结合spss和weka)
本课程重在突出数据仓库与数据挖掘决策支持的本质,介绍数据挖掘的各种方法、技术实现手段,通过对实例的深入剖析解释它们的原理。
第一讲 数据仓库原理及联机分析技术介绍
第二讲 数据仓库设计与开发
第三讲 基于数据仓库的决策支持系统
第四讲 数据仓库案例剖析
第五讲 数据挖掘与知识发现
第六讲 关联分析算法及其案例
第七讲 聚类分析算法及其案例
第八讲 其它数据挖掘算法介绍
七、python和r数据挖掘技术-基于python和r语言的数据挖掘和统计分析技术
本课程将对基于python和r语言进行数据处理、数据探索的基本方法,利用r语言实现模型选择、logistic回归及决策树算法,以及贝叶斯算法及支持向量机、神经网络等算法原理及实现进行讲解。
第一讲 数据挖掘,python和r简介
第二讲 数据的导入与导出
第三讲 数据可视化展现
第四讲 决策树与随机森林
第五讲 回归分析
第六讲 聚类分析
第七讲 离群点检测
第八讲 时间序列分析
第九讲 关联规则
第十讲 社交网络分析
八、大数据分析挖掘-基于hadoop/mahout/mllib的大数据挖掘(含spark、storm和docker应用介绍 )
本课程从大数据挖掘分析技术实战的角度,结合理论和实践,全方位地介绍mahout和 mllib等大数据挖掘工具的开发技巧。本课程涉及的主题包括:大数据挖掘及其背景,mahout和 mllib大数据挖掘工具,推荐系统及电影推荐案例,分类技术及聚类分析,以及与流挖掘和docker技术的结合,分析了大数据挖掘前景分析。
本课程教学过程中还提供了案例分析来帮助学员了解如何用mahout和 mllib挖掘工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。
第一讲 大数据挖掘及其背景
第二讲 mapreduce/dag计算模式
第三讲 云挖掘工具mahout/mlib
第四讲 推荐系统及其应用开发
第五讲 分类技术及其应用
第六讲 聚类技术及其应用
第七讲 关联规则和相似项发现
第八讲 流数据挖掘相关技术
第九讲 云环境下大数据挖掘应用
九、spark大数据挖掘工具mllib实战(机器学习)
本课程主要讲解spark mllib,spark mllib是一种高效、快速、可扩展的分布式计算框架,实现了常用的机器学习,如:聚类、分类、回归等算法。讲解各个算法的理论、详细展示spark源码实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握spark mllib分布式机器学习和大数据挖掘方法。
第一讲 spark大数据实时处理技术
第二讲 spark安装配置及监控
第三讲 scala编程语言和分布式计算模型
第四讲 spark mllib线性回归和逻辑回归算法
第五讲 spark mllib贝叶斯分类算法
第六讲 spark mllib决策树算法
第七讲 spark mllib聚类算法
第八讲 spark mllib关联规则算法
第九讲 spark mllib个性化推荐算法
第十讲 spark mllib神经网络算法
十、python语言基础及数据分析技术
python语法简洁清晰,python具有丰富和强大的库。能够把用其他语言制作的各种模块(尤其是c/c++)很轻松地联结在一起。python包括一套完整的数据处理、计算和制图软件系统;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。
本课程将对基于python语言进行数据处理、数据探索的基本方法,并对python语言算法原理及实现进行讲解。
第一讲 基础知识
第二讲 python数据结构
第三讲 选择与循环
第四讲 字符串与正则表达式
第五讲 函数设计与使用
第六讲 面向对象程序设计
第七讲 文件操作
第八讲gui编程
第九讲 数据库编程
第十讲 科学计算与可视化
第十一讲 大数据处理
十一、大数据可视化技术与应用
本课程立足于可视化的本质问题,从设计的角度讲述数据可视化技术,而非可视化实现算法。
课程通过演绎可视化设计的基本流程、常用工具和方法,加上针对典型数据类型可视化方法的案例分析,以启发学员思考,达到以更加丰富的可视化方法,运用各种交互设计手段进行可视化分析与探索,深入挖掘自身现有业务数据价值的目的。
第一讲 数据可视化概述
第二讲 可视化设计基础
第三讲 可视化编码基础
第四讲 地理空间数据可视化方法
第五讲 时变数据可视化方法
第六讲 关系数据可视化方法
第七讲 高维数据可视化方法
第八讲 文本数据可视化方法
第九讲 可视化交互设计方法
十二、云计算与大数据处理技术
本课程分别从多个角度分析在面对海量数据处理的困难时,不同的应用体系是如何解决问题并获得成功的。研究这些已有的体系不是目的,而是希望学员能够通过学习这些解决问题的方法和思路,通过归纳整理深入理解,再根据自己所面对的领域特征,形成解决具体实际问题的方案。通过本课程学习,希望推动国内云计算项目开发上升到一个新水平。
第一讲 云计算的概念与现状
第二讲 从google云计算体系,理解海量数据处理的方法
第三讲 从hadoop云计算项目,进一步研究云数据处理方法
第四讲 从windows azure,理解平台即服务的本质
第五讲 从amazon云计算,讨论如何提供云服务
第六讲 实施云计算的关键点:安全策略
第七讲 当前数据中心如何向云计算环境转变?
第八讲 基础设施即服务(iaas)关键实现技术
第九讲 软件即服务(saas)关键实现技术