极客笔记 - 简单搜索

Scala Hello程序

2024年12月26日 Scala Hello程序在本教程中，您将学习如何编写Scala程序。要编写Scala程序，您需要在您的计算机上安装Scala。您的计算机必须安装最新版本的jdk，因为Scala编译器会创建一个字节码的.class文件。Scala解释器使用Java虚拟机(JVM)来执行这个字节码。 Scala示例：Hello Scala 以下代码示例是一个简单的Scala程序。 object ScalaExample{ def main(args:Array[String]){ pri

Scala Hello程序

Scala 特点

2024年12月26日 Scala 特点 Scala具有以下特点类型推断单例对象不可变性延迟计算样例类和模式匹配并发控制字符串插值高阶函数 Traits（特征）丰富的集合类型推断在Scala中，你不需要显式地指定数据类型和函数的返回类型。Scala足够智能，能够推断出数据的类型。函数的返回类型由函数中最后一个表达式的类型决定。单例对象在Scala中，没有静态变量或方法。Scala使用单例对象，它实质上是一个源文件中只有一个对象的类。使用object关键字声明单例对象，而不是class关键字

Scala 特点

Spark Count函数

2024年12月26日 Spark Count函数在Spark中，Count函数返回数据集中元素的数量。 Count函数示例在这个示例中，我们计算数据集中存在的元素数量。使用并行化集合创建RDD。 scala> val data = sc.parallelize(List(1,2,3,4,5)) 现在，我们可以使用以下命令来阅读生成的结果。 scala> data.collect 将count()函数应用于计算元素的数量。 scala> val countfunc =

Spark Count函数

Spark 过滤函数

2024年12月26日 Spark 过滤函数在Spark中，过滤函数返回一个由源数据集中满足条件的元素组成的新数据集。只检索满足给定条件的元素。过滤函数示例在这个例子中，我们过滤给定的数据，并检索除了35之外的所有值。要在Scala模式中打开Spark，请按照以下命令。 $ spark-shell 使用并行化集合创建RDD。 scala> val data = sc.parallelize(List(10,20,35,40)) 现在，我们可以使用以下命令来阅读生成的结果。 sc

Spark 过滤函数

Spark Map函数

2024年12月26日 Spark Map函数在Spark中，Map将源数据的每个元素通过一个函数进行处理，并生成一个新的分布式数据集。 Map函数的示例在这个示例中，我们为每个元素加上一个常量值10。要以Scala模式打开Spark，请执行以下命令 $ spark-shell 使用并行集合创建RDD。 scala> val data = sc.parallelize(List(10,20,30)) 现在，我们可以使用以下命令来读取生成的结果。 scala> data.co

Spark Map函数

Spark RDD共享变量

2024年12月26日 Spark RDD共享变量在Spark中，当任何函数传递给一个转换操作时，它会在远程集群节点上执行。它对函数中使用的所有变量的不同副本进行操作。这些变量被复制到每台机器上，远程机器上对变量的任何更新都不会还原到驱动程序。广播变量广播变量支持在每台机器上缓存只读变量，而不是在任务中提供变量的副本。Spark使用广播算法来分发广播变量以减少通信成本。 Spark操作的执行通过几个阶段，每个阶段之间由分布式的”shuffle”操作分隔。Spark会自动广播每个阶段内任务所

Spark RDD共享变量

Spark RDD操作

2024年12月25日 Spark RDD操作 RDD提供了两种类型的操作：转换动作转换在Spark中，转换的作用是从现有的数据集中创建一个新的数据集。转换是延迟计算的，只有当动作需要将结果返回给驱动程序时才会计算。让我们看一些经常使用的RDD转换操作。转换描述 map(func) 通过将源的每个元素传递给函数func，返回一个新的分布式数据集。 filter(func) 返回一个新的数据集，由源上那些func返回true的元素组成。 flatMap(func) 这里，

Spark RDD操作

Spark 什么是RDD

2024年12月25日 Spark 什么是RDD RDD（Resilient Distributed Dataset）是Spark的核心抽象概念。它是一个元素的集合，分布在集群的节点上，以便我们可以对其执行各种并行操作。有两种方法可以创建RDD：在驱动程序中并行化现有数据引用外部存储系统中的数据集，如共享文件系统、HDFS、HBase或任何提供Hadoop InputFormat的数据源并行化集合要创建并行化集合，可以在驱动程序中使用 SparkContext的 parallelize方法调用现有集合。集

Spark 什么是RDD

Spark 组件

2024年12月25日 Spark 组件 Spark项目由不同类型的紧密集成的组件组成。在其核心，Spark是一个计算引擎，可以调度，分发和监视多个应用程序。让我们详细了解每个Spark组件。 Spark Core Spark Core 是Spark的核心，执行核心功能。它包含任务调度、故障恢复、与存储系统和内存管理交互的组件。 Spark SQL Spark SQL 建立在Spark Core之上，提供对结构化数据的支持。它允许通过SQL（结构化查询语言）以及Apache Hive的SQL变体

Spark 组件

Spark 架构

2024年12月25日 Spark 架构 Spark遵循主从架构。其集群由一个主节点和多个从节点组成。 Spark架构依赖于两个抽象概念：弹性分布式数据集（RDD）有向无环图（DAG）弹性分布式数据集（RDD）弹性分布式数据集是可以存储在工作节点内存中的一组数据项。这里：弹性：在故障时能够恢复数据。分布式：数据分布在不同节点之间。数据集：一组数据。我们稍后会详细学习RDD。有向无环图（DAG）有向无环图是在数据上执行一系列计算的有限直接图。每个节点是一个RDD分区，边是对数据的转换

Spark 架构

Scala 历史

2024年12月25日 Scala 历史 Scala（斯卡拉）是一种通用编程语言。它由Martin Odersky创造和发展。Martin于2001年在洛桑联邦理工学院开始开发Scala。它在2004年1月20日正式发布。 Scala不是Java的扩展，但它与Java完全可互操作。在编译过程中，Scala文件会被转换为Java字节码并在JVM（Java虚拟机）上运行。 Scala旨在同时具备面向对象和函数式编程的特性。它是纯面向对象的语言，因为每个值都是一个对象，并且是函数式语言，因为每个函数都是一个值。Scala的名

Scala 历史

MapReduce 字符计数示例

2024年12月25日 MapReduce 字符计数示例在MapReduce字符计数示例中，我们找出每个字符的频率。Mapper的作用是将键映射到现有的值，Reducer的作用是聚合相同值的键。因此，所有内容都以键值对的形式表示。先决条件 Java安装 – 使用以下命令检查Java是否已安装。java -version Hadoop安装 – 使用以下命令检查Hadoop是否已安装。hadoop version 执行MapReduce字符计数示例的步骤在本地计算机上创建一个文本文件，并

MapReduce 字符计数示例

MapReduce API

2024年12月25日 MapReduce API 在这个部分中，我们关注MapReduce API。在这里，我们学习MapReduce编程中使用的类和方法。 MapReduce Mapper类在MapReduce中，Mapper类的作用是将输入的键值对映射到一组中间键值对。它将输入记录转换为中间记录。这些与给定输出键相关联的中间记录将传递给Reducer以产生最终输出。 Mapper类的方法方法描述 void map(KEYIN key, VALUEIN value, Context

MapReduce API

MapReduce 数据流动

2024年12月25日 MapReduce 数据流动 MapReduce用于计算大量的数据。为了处理即将到来的数据以并行和分布式形式，数据必须从各个阶段流动。 MapReduce数据流程的阶段输入读取器输入读取器读取即将到来的数据，并将其分割成适当大小的数据块（64 MB到128 MB）。每个数据块都与一个Map函数相关联。一旦输入读取完数据，它会生成相应的键值对。输入文件存储在HDFS中。注意 – 输入数据可以是任何形式。 Map函数 Map函数处理即将到来的键值对，并生成相应的输出键

MapReduce 数据流动

MapReduce 教程

2024年12月25日 MapReduce 教程 MapReduce教程提供了MapReduce的基本和高级概念。我们的MapReduce教程专为初学者和专业人士设计。我们的MapReduce教程包括MapReduce的所有主题，例如MapReduce中的数据流、MapReduceAPI、词计数示例、字符计数示例等。什么是MapReduce MapReduce是一种用于并行处理分布式数据的数据处理工具。它于2004年开发，基于Google发表的题为《MapReduce：大规模集群上简化的数据处理》的论文。

MapReduce 教程