Hadoop-每日运维

系统管理员的容器时代之殇

系统管理现在处于一个癫狂的时代，一片混乱。我并不是抱怨老式系统管理员们，他们还是知道如何让系统工作起来，知道怎么更新系统和如何升级扩容。这篇吐槽是关于容器、预构建虚拟机镜像的，它们真是令人难以置信的混乱，它们的脑子里面就根本没有“可信”和“升级”的概念。（题图来自 crtdot.com）举个 Hadoop 的例子，似乎就没有人知道如何从头构建一份 Hadoop，它那令人头昏眼花的依赖关系、

linux中国 2024-07-20 剑圣无痕

大数据探索：在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来，在过去，我们要用 R 语言提取固定宽度的数据，然后通过数学建模来分析美国的最低收入补贴，当然也包括其他优秀的方法。今天我将向你展示对大数据的一点探索，不过有点变化，使用的是全世界最流行的微型电脑————树莓派，如果手头没有，那就看下一篇吧（可能是已经处理好的数据），对于其他用户，请继续阅读吧，今天我们要建立一个树莓派 Hadoop集

linux中国 2024-07-19 共饮一杯

大数据探索：在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

如何在 CentOS 上安装 Apache Hadoop

Apache Hadoop 软件库是一个框架，它允许使用简单的编程模型在计算机集群上对大型数据集进行分布式处理。Apache™ Hadoop® 是可靠、可扩展、分布式计算的开源软件。该项目包括以下模块： Hadoop Common：支持其他 Hadoop 模块的常用工具。 Hadoop 分布式文件系统（HDFS™）：分布式文件系统，可提供对应用程序数据的高吞吐量访问支持。 Hadoop YAR

linux中国 2024-07-19 宇宙之一粟

CDH是Cloudera的早前开源平台发行版，是事实上的Apache Hadoop生态系统的安装管理平台，专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成，Cloudera创建了一个功能先进的系统，可帮助您执行端到端的大数据工作流程。免费版本停更至6.3.2版本，后续只发布了商业版本，即使如此，许多公司都使用了免费版本的CDH部署了H

数据运维 2024-05-07 泡泡

Java大数据处理框架的学习路线

java 大数据处理框架学习路线：hadoop 生态系统掌握基础知识spark 精通核心概念，使用 sql 查询数据，学习实时数据处理和机器学习flink 深入理解流处理，事件时间处理和容错性实战案例：mapreduce 处理日志数据，spark 分析社交媒体数据，flink 监测物联网设备进阶学习：分布式系统，云计算，大数据分析技术 Java 大数据处理框架的学习路线前提知识： Java 基础

开发运维 2024-04-21 大猫

Apache Spark与Hadoop之间的区别

apache spark 和 hadoop 在数据处理方法上存在差异：hadoop：分布式文件系统，批处理，使用 mapreduce 计算。spark：统一数据处理引擎，实时处理和批处理兼备，提供内存计算、流处理和机器学习等功能。 Apache Spark 与 Hadoop：概念和区别 Apache Spark 和 Hadoop 是两个广泛用于大数据处理的框架，但在方法和功能上存在显著差异。概念

开发运维 2024-04-20 三掌柜

Hadoop YARN Cgroups 资源隔离讲解，你学会了吗？

一、概述 Hadoop YARN (Yet Another Resource Negotiator)使用 Cgroups（Control Groups）来进行资源管理和隔离。Cgroups 是 Linux 内核提供的一种机制，用于限制、账户和隔离进程组（process groups）的资源（例如 CPU、内存、磁盘 I/O 等）。以下是 Hadoop YARN Cgroups 的主要讲解：资源

系统运维 2023-12-26 剑圣无痕

在Linux系统中实现容器化的大规模数据分析平台：Hadoop和Spark

在Linux系统中实现容器化的大规模数据分析平台，我们可以利用Hadoop和Spark这两个强大的开源工具。 Hadoop是一个分布式计算框架，适用于处理大规模数据集。它提供了分布式文件系统（HDFS）和分布式计算模型（MapReduce），可以将任务划分为多个子任务，并运行在多个节点上，充分利用集群资源进行并行计算。 Spark是一个快速且通用的分布式计算引擎，比Hadoop MapReduce

开发运维 2023-12-15 三掌柜

Linux配置Hadoop伪分布式环境

💡前提：已配置好Java环境（本文使用的Java版本为JDK1.8，Hadoop版本为3.3.0）。配置SSH免密码 Hadoop启动需要配置SSH免密码，执行如下命令： # 生成SSH密钥，一路按回车即可 ssh-keygen # 将SSH密钥写入密钥文件 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 为了验证是否配置成功，执行如下

系统运维 2023-10-16 三掌柜

Hadoop➖Windows系统下Hadoop单机环境搭建教程

Hadoop——Windows系统下Hadoop单机环境搭建教程关于作者作者介绍 🍓 博客主页：作者主页 🍓 简介：JAVA领域优质创作者🥇、一名初入职场小白🎓、曾在校期间参加各种省赛、国赛，斩获一系列荣誉🏆 🍓 关注我：关注我学习资料、文档下载统统都有，每日定时更新文章，励志做一名JAVA资深程序猿👨‍💻 Hadoop初识 Hadoop是一个开源的分布式计算框架，它的目标是处理大规模数据集的

开发运维 2023-10-13 醒在深海的猫

hadoop集群搭建及编程实践

Hadoop集群搭建前期准备及JDK，hadoop安装设置主机名和添加主机映射验证连通性 SSH无密码登录配置集群/分布式环境修改workers 修改文件core-site.xml 修改hdfs-site.xml 修改mapred-site.xml 修改yarn-site.xml 分发到其他结点格式化namenode 执行分布式实例 java API与HDFS的编程导入Maven依赖

系统运维 2023-10-09 泡泡

如何使用Hadoop和MapReduce进行数据处理？

Hadoop和MapReduce是一对强大的工具，用于分布式存储和处理大规模数据集。Hadoop是一个开源框架，提供了可靠性、可扩展性和容错性等特性，而MapReduce是一种编程模型，在Hadoop上实现了分布式数据处理。下面将详细介绍如何使用Hadoop和MapReduce进行数据处理。 1、Hadoop的安装和配置：首先，需要下载Hadoop并进行安装。在安装完成后，需要进行一些配置来使H

开发运维 2023-09-27 竹子爱熊猫

如何在 Debian 12 上安装 Apache Hadoop

大数据是现代数据驱动型业务的支柱，Hadoop已成为处理和分析海量数据集的首选解决方案。如果你想在 Debian 12 系统上利用 Hadoop 的强大功能，那么你来对地方了。在 Debian 12 书虫上安装 Apache Hadoop 第 1 步。在我们安装任何软件之前，通过在终端中运行以下命令来确保您的系统是最新的非常重要：apt sudo apt update 此命令将刷新存储库，允许您

系统运维 2023-09-17 穿过生命散发芬芳

Hadoop源码阅读（二）：DataNode启动

说明： 1.Hadoop版本：3.1.3 2.阅读工具：IDEA 2023.1.2 3.源码获取：Index of /dist/hadoop/core/hadoop-3.1.3 (apache.org) 4.工程导入：下载源码之后得到 hadoop-3.1.3-src.tar.gz 压缩包，在当前目录打开PowerShell，使用tar -zxvf指令解压即可，然后使用IDEA打开hadoop-3

开发运维 2023-09-17 穿过生命散发芬芳

大数据学习HDFS分布式存储原理

Hadoop的基本概念 Hadoop是Apache的一个开源的分布式计算平台，核心是以HDFS分布式文件系统和MapReduce分布式计算框架构成，为用户提供了一套底层透明的分布式基础设施 Hadoop框架中最核心设计就是：HDFS和MapReduce。HDFS提供了海量数据的存储，MapReduce提供了对数据的计算。 HDFS是Hadoop分布式文件系统，具有高容错性、高伸缩性，允许用户基于廉

开发运维 2023-09-16 法医

超详细Hadoop集群搭建

前期环境准备 JDK安装配置 # 快速手把手教你Centos7中安装Java8 JDK 新增非root用户 adduser hadoop passwd hadoop chown -R hadoop hadoop /app 下面所有hadoop集群安装配置及启动的操作都是在hadoop用户下完成的（不能使用root用户）服务器之间的免密登录 # Linux 多台机器之间的免密登录设置要在hado

系统运维 2023-09-12 贤蛋大眼萌

macos+ubuntu系统安装hadoop

Hadoop 分布式计算平台，核心是分布式文件系统HDFS macos下安装下载地址：Index of apache-local/hadoop/core/hadoop-3.3.0 使用参考文章：Mac部署hadoop3(伪分布式) - 掘金进入目录~/tools/hadoop-3.3.0/etc/hadoop，做以下设置：查看java_home: 打开hadoop-env.sh文件，增加

系统运维 2023-09-12 穿过生命散发芬芳

Hadoop3.0大数据处理学习（Haddop介绍、部署、Hive部署）

Hadoop3.0快速入门学习步骤：三大组件的基本理论和实际操作 Hadoop3的使用，实际开发流程结合具体问题，提供排查思路开发技术栈： Linux基础操作、Sehll脚本基础 JavaSE、Idea操作 MySQL Hadoop简介 Hadoop是一个适合海量数据存储与计算的平台。是基于Google的GoogleFS、Map Reduce、BigTable实现的。分布式存储介绍分布

系统运维 2023-09-02 共饮一杯

：centos7系统搭建Hadoop环境教程

在CentOS 7上搭建Hadoop环境是一项常见的任务，下面是一个简单的教程：安装Java： Hadoop是基于Java开发的，所以首先需要安装Java。您可以按照以下步骤在CentOS 7上安装Java：下载适用于Linux的Java JDK（Java Development Kit）压缩包。解压缩压缩包并将其安装到您选择的目录。配置Java环境变量（JAVA_HOME）。下载和解压

系统运维 2023-08-29 张二河

如何在Java中实现表单数据的分布式计算和分布式处理？

如何在Java中实现表单数据的分布式计算和分布式处理？随着互联网的快速发展，信息量的增加，对于大数据的计算和处理需求也越来越大。分布式计算和分布式处理成为一种解决大规模计算和处理问题的有效手段。在Java中，我们可以利用一些开源框架来实现表单数据的分布式计算和分布式处理，本文将介绍一种基于Apache Hadoop和Spring Boot的实现方式。 Apache Hadoop简介：Apache

开发运维 2023-08-28 捡田螺的小男孩

1 2 … 4 下一页