Spark日志配置
Spark版本:3.3.51) local运行模式 # pwdhomesparkconfig# vi log4j-local.propertieslog4j.rootLogger=info, conso
Kafka压测报告
2024软件测试面试刷题,这个小程序(永久刷题),靠它快速找到工作了!(刷题APP的天花板
大数据程序员必会之Spark框架上的实时流计算框架SparkStreaming
Spark Streaming 如今在大数据的世界里,Spark可谓是众所周知,风光无限了。在批处理领域取得巨大成功后,Spark开始向流计算领域进军,
Hive知识
一、数据仓库和数据库 数仓和数据库的区别别实际讲的是OLTP与OLAP的区别 操作型处理(数据库),叫联机事务处理OLTP(On-Line Transaction Processing&#
Hadoop概述
任务描述 本关任务:根据下面的相关知识,完成与 Hadoop 相关的选择题。 相关知识 Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Do
解决RabbitMQ的The channelMax limit is reached,2024年最新醍醐灌顶
先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7 深知大多数程序员,想要提升技能,往往是自己摸索成长&am
Hive 数据倾斜
1.什么是数据倾斜 数据倾斜:数据分布不均匀,造成数据大量的集中到一点,造成数据热点。主要表现为任务进度长时间维持在 99%或者 100%的附近,查看任
Spark协同过滤算法-酒店推荐
要基于用户的收藏和酒店的详情数据来构建一个推荐系统,我们可以使用协同过滤算法,这是推荐系统中常用的技术。协同过滤主要分为用户基于(User-Based)
了解hdfs
HDFS(Hadoop Distributed File System)是Hadoop生态系统中的分布式文件系统,用于存储大规模数据并提供高可靠性和高性能。以下是HDFS的架
Springboot集成RabbitMQ
安装 1.拉取镜像 2.启动容器 3.开放linux端口及管理程序 开放管理程序 4.浏览器访问 浏览器访问: http:ip:15673# 输入用户名密码: guestguet Springboot集成 1.导入依赖 &am
初识Hive
Hive的基本结构由以下几个组件组成: Hive Metastore:元数据仓库,用于存储表、分区、列等元数据信息。Metastore可以使用不同的存储后端
常用kafka命令
#### 创建topic ``` .kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-fact
HBase入门教程(1)
用惯了OracleMySQL的同学们,心目中的数据表,应该是长成这样的:这种表结构规整,每一行都有固定的列构成,因此&#x
Hadoop启动
Hadoop启动文章目录Hadoop启动怎么解决海量数据存储?namenode负责:(做账本)datanode负责Secondarynamenode&a
hdfs写入数据流程
1、client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传&am
手拉手安装Kafka2.13发送和消费消息
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 Kafka启动方式有Zookeeper和Kraft,两种方式只能选择其中一种启动,
Flink常见面试问题(附答案)
目录基础篇1. 什么是Apache Flink?2. Flink与Hadoop的区别是什么?3. Flink中的事件时间(Event Time)和处理时
hdfs的命令行使用
hdfs的命令行使用 超全hdfs命令,包含使用案例 ls 格式:hdfs dfs -ls URI作用:类似于 Linux的 ls命令,显示文件列表案例
Spark算子--Scala版本
转换算子之map和distinct算子 任务描述 本关任务:输出每个元素及其长度并去重。 相关知识 为了完成本关任务,你需要掌握map算子以及distinct算子的的用法。 map 算子 map&
spark基础,2024火爆全网系列
先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7 深知大多数程序员,想要提升技能,往往是自己摸索成长&am