Apache火花:Apache 2.3火花初学者
技术:
专业知识:
- 3课程|3小时13米7
- 8书|30 h 58米
- 5课程|4 h 22米12秒
- 5本书|19小时45米
- 2课程|1 h 14米41秒
探索Apache Spark,这是一个开源集群计算框架,为集群提供容错编程接口。
课程包括
Apache Spark入门
Apache Spark是用于数据科学的开源集群计算框架,已成为事实上的大数据框架。在这个技能展示课程,探索Apache Spark的基础知识,分析引擎,用于与Hadoop顶部建造的大数据一起使用。了解它允许使用自己的库方法和SQL的数据进行操作,同时提供出色的性能。这里涉及的主要概念包括火花与Hadoop合作;火花RDD,它们的特征以及如何区分RDD和DataFrames;以及Spark和Spark Session,Master和Worker节点的功能的组件。然后观察如何安装pyspark并初始化火花上下文;如何从RDD的内容初始化Spark DataFrame;使用SQLContext的Dataframe的内容。接下来,您将学习如何在RDD上应用Map()函数来配置DataFrame; how to retrieve required data from DataFrame and how to apply transformations; and how to convert Spark DataFrames to Pandas DataFrames and vice versa.
15个视频| 1h
评估
徽章
数据分析使用Spark DataFrame API
用于数据科学的开放源集群计算框架,Apache Spark已成为事实上的大数据框架。在此技能展示课程中,学习者探索如何使用DataFrame API方法分析实际数据集。发现如何优化共享变量的操作,并使用连接组合来自多个DataFrame的数据。本课程中涵盖的主要概念包括使Spark 2.x版本的功能明显快于火花1.x;如何从CSV文件的内容创建Spark DataFrame并在DataFrame上应用一些简单的转换;以及如何在DataFrame上应用分组和聚合操作,以分析数据集中的数据类别。然后使用Matplotlib可视化Spark DataFrame的内容;了解广播变量以及如何使用DataFrame执行连接操作;并在文本文件中研究DataFrame的内容进行存档或共享。最后,了解如何在Spark Dataframes上执行不同的连接操作以将数据与多个源组合,以及如何使用DataFrame API分析数据。
16个视频| 1h11m
评估
徽章
Spark SQL数据分析
继续探索Apache Spark,事实上的大数据科学框架,在这个Skillsoft Aspire课程。您将学习如何通过将Spark DataFrame当作关系数据库表来分析它。学习如何从Spark DataFrame创建视图并对其运行SQL查询,以及如何在Windows中定义和探索数据。本课程的关键概念包括在Spark DataFrame内容上优化任何查询或方法调用的不同阶段;如何从一个Spark DataFrame的内容创建视图,并对它们运行查询;以及如何在创建视图之前修剪和清理DataFrame,作为运行SQL查询的前体。接下来,学习如何通过运行不同的SQL查询执行数据分析;如何配置一个明确定义的模式的DataFrame;并在Spark上下文中定义什么是窗口。最后,观察如何使用Windows在数据集中创建和分析数据类别。
9个视频| 54m
评估
徽章
课程包括
Apache火花SQL
Apache Spark SQL在Spark中用于结构化数据处理。探索Spark SQL的特性,如SparkSessions, DataFrames和Datasets。
16个视频| 1h
评估
徽章
显示更多
必威体育 西汉姆联
课程包括
为AI开发引入Apache Spark
Apache Spark为实现机器学习和深度学习提供了一个健壮的框架。它利用弹性分布式数据库提供了一个非常适合开发大数据应用程序的容错平台。因为许多大公司正在积极地使用这个框架,AI开发人员应该熟悉使用Apache Spark和Spark ml实现AI的基础知识。在本课程中,您将探索分布式计算的概念。您将识别使用Spark进行AI开发的好处,分析使用Spark相比其他大数据AI平台的优点和缺点。接下来,您将描述如何使用Spark实现机器学习、深度学习、自然语言处理和计算机视觉。最后,您将使用Spark ML创建Netflix和YouTube常用的电影推荐系统。
15视频|37米
评估
徽章
使用Apache Spark进行AI开发
Spark是一种领先的开源聚类计算框架,用于分布式数据库和机器学习。虽然没有主要为AI设计,但Spark允许您利用AI开发中使用的数据并行性和大型分布式系统。AI从业者应识别何时使用Spark为特定应用程序。在本课程中,您将探讨使用Apache Spark的高级技术,并确定在其他平台上使用火花的关键优势。您将定义弹性分布式数据库(RDDS)的含义,并探索与它们相关的几个工作流程。您将继续识别如何使用Spark DataFrame,识别其功能和用例。最后,您将学习如何使用Spark ML管道创建机器学习管道。
13个视频| 37m
评估
徽章
完成这些课程时赚取数字徽章
Skillsoft为您提供成功完成一些课程后获得数字徽章的机会,可以在任何社交网络或商业平台上分享。
数字徽章是您的保留。书包括
书
开始Apache Spark 2:具有弹性分布式数据集,Spark SQL,结构化流和Spark机器学习库
通过专家工程师和培训师编写的Apache Spark平台的教程,本书将为您提供基本面,以便在使用Apache Spark中熟练,并知道何时以及如何将其应用于您的大数据应用程序。
5H 7M.
由阿娴灾区
书
实用的apache spark:使用scala api
在使用Scala的教学Apache Spark教授Apache Spark之后,本书将帮助您了解概念,练习Scala中的代码片段,并完成提供的分配给出整体曝光。
1小时53米
作者Dharanitharan gananesan, Subhashini Chellappan
书
下一代大数据:Apache Kudu、Impala和Spark的实用指南
利用这个实用和易于遵循的指南,用下一代大数据技术现代化传统的企业数据仓库和商业智能环境。
4小时13米
在布奇Quinto
书
PySpark Recipes: PySpark2的问题解决方案
本书将带您踏上一段有趣的旅程,了解PySpark和大数据。本书采用了一个问题解决方案,每个问题都有一个详细的、循序渐进的答案,这将改善您的思维过程,以PySpark解决大数据问题。
3h 2m.
作者:Raju Kumar Mishra
书
大数据Smack:Apache Spark,Mesos,Akka,Cassandra和Kafka的指南
解释了每一种全栈技术,更重要的是,介绍了如何最好地集成它们,本书详细介绍了这些技术的实际好处,并在每种情况下结合了现实世界的示例。
3小时56m.
艾萨克·鲁伊斯、劳尔·埃斯特拉达著
书
Pro Spark Streaming: The Zen of Real-Time Analytics Using Apache Spark
本书在每一章中介绍了来自特定行业的用例,并使用该领域的公开数据集来揭示产品级设计和实现的复杂性,这本书引导您使用真实世界的应用程序、数据和代码进行端到端实时应用程序开发。
4小时16米
由Zubair纳比
书
Spark:生产中的大数据集群计算
通过真实世界的生产洞察和专家指导、提示和技巧,这个非常有用的资源超越了一般的Spark概述,为在生产中使用闪电般快速的大数据集群提供了有针对性的指导。
3 h 35米
Brennon York,Ema Orian,Ilya Ganelin,Kai Sasaki
书
带有Spark的大数据分析:使用Spark为大规模数据处理,机器学习和图形分析以及高速数据流处理使用Spark的实践指南
帮助您成为一个炙手可热的Spark专家,这个循序渐进的指南向您展示了如何在不同类型的大数据分析项目中使用Spark,包括批处理、交互、图表和流数据分析以及机器学习。
4小时56m.
由穆罕默德•居尔
显示更多
必威体育 西汉姆联
书包括
书
大数据Smack:Apache Spark,Mesos,Akka,Cassandra和Kafka的指南
解释了每一种全栈技术,更重要的是,介绍了如何最好地集成它们,本书详细介绍了这些技术的实际好处,并在每种情况下结合了现实世界的示例。
3小时56m.
艾萨克·鲁伊斯、劳尔·埃斯特拉达著
书
Pro Spark Streaming: The Zen of Real-Time Analytics Using Apache Spark
本书在每一章中介绍了来自特定行业的用例,并使用该领域的公开数据集来揭示产品级设计和实现的复杂性,这本书引导您使用真实世界的应用程序、数据和代码进行端到端实时应用程序开发。
4小时16米
由Zubair纳比
书
带有Spark的大数据分析:使用Spark为大规模数据处理,机器学习和图形分析以及高速数据流处理使用Spark的实践指南
帮助您成为一个炙手可热的Spark专家,这个循序渐进的指南向您展示了如何在不同类型的大数据分析项目中使用Spark,包括批处理、交互、图表和流数据分析以及机器学习。
4小时56m.
由穆罕默德•居尔
书
Spark:生产中的大数据集群计算
通过真实世界的生产洞察和专家指导、提示和技巧,这个非常有用的资源超越了一般的Spark概述,为在生产中使用闪电般快速的大数据集群提供了有针对性的指导。
3 h 35米
Brennon York,Ema Orian,Ilya Ganelin,Kai Sasaki
书
PySpark Recipes: PySpark2的问题解决方案
本书将带您踏上一段有趣的旅程,了解PySpark和大数据。本书采用了一个问题解决方案,每个问题都有一个详细的、循序渐进的答案,这将改善您的思维过程,以PySpark解决大数据问题。
3h 2m.
作者:Raju Kumar Mishra
显示更多
必威体育 西汉姆联