👑 首页
🦁 编程技术
🌀 云原生
🚀 笑谈编程
🐻 私房运维
🐳 大数据
🦅 AI
🐣 Comfyui
🦉 AI文章
🎥 视频
🎞️ Premiere
📗 技术文档
🐜 autojs
☪️ 工具
✈️ 软件
🧭 导航
🧰 在线工具箱
🐤 其他
Ⓜ️ 瞬时
📖 文章归档
💬 留言板
❇️ 友情链接
🔐 隐私政策
谷百特博客
温度 IT 记忆,传播IT和软件技术的博客
累计撰写
40
篇文章
累计创建
78
个标签
累计收到
2
条评论
栏目
👑 首页
🦁 编程技术
🌀 云原生
🚀 笑谈编程
🐻 私房运维
🐳 大数据
🦅 AI
🐣 Comfyui
🦉 AI文章
🎥 视频
🎞️ Premiere
📗 技术文档
🐜 autojs
☪️ 工具
✈️ 软件
🧭 导航
🧰 在线工具箱
🐤 其他
Ⓜ️ 瞬时
📖 文章归档
💬 留言板
❇️ 友情链接
🔐 隐私政策
目 录
CONTENT
以下是
大数据
相关的文章
2026-06-07
历时两周,将我司的Hadoop2升级到Hadoop3,踩了几个大坑
在解决了一次超万亿规模Hadoop NameNode性能故障后,为应对每天近千亿条数据增长和版本老旧的担忧,团队决定将生产集群从 Hadoop 2.6.0 升级到 Hadoop 3.2.1,并启用联邦模式(3个联邦),同时修改录信数据库LSQL源码以适配联邦机制,目标扩容至上万节点。面对数十万亿数据规模的生产系统,团队进行了十几次升级演练和回退测试,但升级过程中仍遇到了三大预想不到的问题。
2026-06-07
22
0
0
大数据
2026-06-07
HDFS 短路本地读取系列(二):你以为的「本地读」和真正的「本地读」—getLegacy vs getBlockReaderLocal 的本质差异
在 HDFS 的读取路径中,BlockReaderFactory.build() 是客户端选择读取策略的总入口。在这个四级降级链路中,第二级和第三级分别由 getLegacyBlockReaderLocal() 和 getBlockReaderLocal() 接管。一个基于文件路径直接打开(HDFS-2246),一个基于 Unix Domain Socket 文件描述符传递(HDFS-347)。本文将深入 Hadoop 3.x源码,彻底解读这两个方法的内部机制、调用链路与设计哲学。
2026-06-07
24
0
0
大数据
2026-06-05
HDFS 短路读取:mmap 与 Unix Domain Socket 铸就的零拷贝艺术
深度解析 HDFS Short-Circuit Local Read 机制——从操作系统原理(mmap 零拷贝、Unix Domain Socket SCM_RIGHTS)到 Hadoop 3.x 源码逐层拆解(BlockReaderFactory 四级降级、DataXceiver fd 传递、ShortCircuitCache 缓存管理),附 CPU 拷贝次数速查表与生产调优实战。
2026-06-05
24
0
0
大数据
2024-08-31
spark-sql on yarn关于UserGroupInformation初始化最早时机
最近调研了spark-sql on yarn时UserGroupInformation初始化最早时机,将spark-sql on yarn的整个提交流程阅读了一遍,确定了SparkSubmit类范围,对SparkSubmit进行了阅读和跟进,找出了关键的代码,如下图所示,lazy val secMg
2024-08-31
105
0
0
大数据
2024-08-28
spark的SparkSubmit类关于Configuration的资源文件加载
在阅读SparkSubmit源代码时,重点关注Configuration的资源文件的加载情况,默认通过new Configuration()构造方法创建时,只会加载core-default.xml和core-site.xml文件,但是SparkSubmit中打印Configuration时,发现还会
2024-08-28
74
0
1
大数据
2024-08-06
hadoop 3.3.5使用docker编译源码
背景 hadoop源码编译环境配置比较复杂,就算在本地的开发宿主机上搭建编译环境,会遇到各种各样的坑,时间花费了很多,收益并不高。为此,本文基于docker搭建一套能够到处运行的编译环境,缩短开发人员的搭建环境的时间,能够快速上手hadoop的编译,调试和开发。跟着我的思路继续吧。 环境 1 这里我
2024-08-06
124
0
1
大数据