共计 5756 个字符,预计需要花费 15 分钟才能阅读完成。
背景
hadoop 源码编译环境配置比较复杂,就算在本地的开发宿主机上搭建编译环境,会遇到各种各样的坑,时间花费了很多,收益并不高。为此,本文基于 docker 搭建一套能够到处运行的编译环境,缩短开发人员的搭建环境的时间,能够快速上手 hadoop 的编译,调试和开发。跟着我的思路继续吧。
环境
1 这里我的使用的宿主机系统是centos 7.9 x64
。
2 软件套件是宝塔,关于宝塔的安装参见宝塔的官网,宝塔安装。
宝塔安装完毕后,需要基于宝塔安装 docker 套件,如下图是安装好的 docker 套件。
3 hadoop 版本基于 3.3.5 进行编译
步骤
1 拉取镜像文件
命令 docker pull ubuntu:bionic
,执行如下图:
2 创建和启动 container
命令:
sudo docker run -itd --name hadoop3 ubuntu:bionic
3 安装依赖
从宝塔界面进入 container 内部,安装相关依赖,如下图:
在上述终端,依次执行如下命令:
# 禁止 suggests/recommends
echo APT::Install-Recommends "0"\; > /etc/apt/apt.conf.d/10disableextras
echo APT::Install-Suggests "0"\; >> /etc/apt/apt.conf.d/10disableextras
echo 'export DEBIAN_FRONTEND=noninteractive' >> /etc/profile
echo 'export DEBCONF_TERSE=true' >> /etc/profile
source /etc/profile
#安装必须的软件包
apt-get -q update \
&& apt-get -q install -y --no-install-recommends \
apt-utils \
bats \
build-essential \
bzip2 \
clang \
cmake \
curl \
doxygen \
fuse \
g++ \
gcc \
git \
gnupg-agent \
libbz2-dev \
libcurl4-openssl-dev \
libfuse-dev \
libprotobuf-dev \
libprotoc-dev \
libsasl2-dev \
libsnappy-dev \
libssl-dev \
libsnappy-dev \
libtool \
libzstd1-dev \
locales \
make \
pinentry-curses \
pkg-config \
python3 \
python3-pip \
python3-pkg-resources \
python3-setuptools \
python3-wheel \
rsync \
shellcheck \
software-properties-common \
sudo \
valgrind \
zlib1g-dev \
&& apt-get clean \
&& rm -rf /var/lib/apt/lists/*
locale-gen zh_CN.UTF-8
echo "export LANG='zh_CN.UTF-8'" >> /etc/profile
echo "export LANGUAGE='zh_CN:zh'" >> /etc/profile
echo "export LC_ALL='zh_CN.UTF-8'" >> /etc/profile
echo 'export PYTHONIOENCODING=utf-8' >> /etc/profile
source /etc/profile
#设置 build hadoop 的必须环境变量
echo 'export MAVEN_HOME=/opt/maven' >> /etc/profile
echo 'export JAVA_HOME=/opt/java-8-openjdk-amd64' >> /etc/profile
source /etc/profile
#安装 SpotBugs 4.2.2
mkdir -p /opt/spotbugs \
&& curl -L -s -S https://github.com/spotbugs/spotbugs/releases/download/4.2.2/spotbugs-4.2.2.tgz \
-o /opt/spotbugs.tgz \
&& tar xzf /opt/spotbugs.tgz --strip-components 1 -C /opt/spotbugs \
&& chmod +x /opt/spotbugs/bin/*
#安装 OpenJDK 8
apt-get update \
&& apt-get install -y --no-install-recommends openjdk-8-jdk libbcprov-java \
&& apt-get clean \
&& rm -rf /var/lib/apt/lists/*
ln -s /usr/lib/jvm/java-8-openjdk-amd64 /opt/java-8-openjdk-amd64
#安装 Google Protobuf 3.7.1
mkdir -p /opt/protobuf-src \
&& curl -L -s -S \
https://github.com/protocolbuffers/protobuf/releases/download/v3.7.1/protobuf-java-3.7.1.tar.gz \
-o /opt/protobuf.tar.gz \
&& tar xzf /opt/protobuf.tar.gz --strip-components 1 -C /opt/protobuf-src \
&& cd /opt/protobuf-src \
&& ./configure --prefix=/opt/protobuf \
&& make "-j$(nproc)" \
&& make install \
&& cd /root \
&& rm -rf /opt/protobuf-src
echo 'export PROTOBUF_HOME=/opt/protobuf' >> /etc/profile
echo 'export PROTOBUF_HOME=/opt/protobuf' >> /etc/profile
echo 'export PATH="${PATH}:/opt/protobuf/bin"' >> /etc/profile
source /etc/profile
#查看 protobuf 版本
protoc --version
#显示
libprotoc 3.7.1
#安装 maven 3.6.0
apt-get -q update \
&& apt-get -q install -y --no-install-recommends maven \
&& apt-get clean \
&& rm -rf /var/lib/apt/lists/*
ln -s /usr/share/maven /opt/maven
#修改 /opt/maven/conf/settings.xml,更新为 <localRepository>/opt/mavenrepo</localRepository>
#创建 mavenrepo
mkdir /opt/mavenrepo
#安装 pylint 和 python-dateutil
pip3 install pylint==2.6.0 python-dateutil==2.8.1
#安装 hadolint
curl -L -s -S \
https://github.com/hadolint/hadolint/releases/download/v1.11.1/hadolint-Linux-x86_64 \
-o /bin/hadolint \
&& chmod a+rx /bin/hadolint \
&& shasum -a 512 /bin/hadolint | \
awk '$1!="734e37c1f6619cbbd86b9b249e69c9af8ee1ea87a2b1ff71dccda412e9dac35e63425225a95d71572091a3f0a11e9a04c2fc25d9e91b840530c26af32b9891ca" {exit(1)}'
mkdir -p /opt/isa-l-src \
&& apt-get update \
&& apt-get install -y --no-install-recommends automake yasm \
&& apt-get clean \
&& curl -L -s -S \
https://github.com/intel/isa-l/archive/v2.29.0.tar.gz \
-o /opt/isa-l.tar.gz \
&& tar xzf /opt/isa-l.tar.gz --strip-components 1 -C /opt/isa-l-src \
&& cd /opt/isa-l-src \
&& ./autogen.sh \
&& ./configure \
&& make "-j$(nproc)" \
&& make install \
&& cd /root \
&& rm -rf /opt/isa-l-src
#build 避免内存溢出
echo "export MAVEN_OPTS='-Xms256m -Xmx1536m'" >> /etc/profile
echo "export HADOOP_SKIP_YETUS_VERIFICATION=true" >> /etc/profile
source /etc/profile
#hugo 静态网址
curl -L -o hugo.deb https://github.com/gohugoio/hugo/releases/download/v0.58.3/hugo_0.58.3_Linux-64bit.deb \
&& dpkg --install hugo.deb \
&& rm hugo.deb
#创建代码仓库
mkdir github
cd github
#拉取 hadoop 源代码
git clone https://github.com/apache/hadoop.git
cd hadoop
#基于 tag 创建 3.3.5 分支
git checkout -b r3.3.5 rel/release-3.3.5
#添加 welcome 环境信息和环境检查,将 hadoop 工程内的 hadoop_env_checks.sh 复制到 /opt 下
cp /opt/github/hadoop/dev-support/docker/hadoop_env_checks.sh /opt
chmod 755 /opt/hadoop_env_checks.sh
echo '${HOME}/hadoop_env_checks.sh' >> /root/.bashrc
4 编译 hadoop
切换至目录 /opt/github/hadoop
执行如下命令:
mvn clean install -Pdist,native -DskipTests -Dtar -Dhttps.protocols=TLSv1,TLSv1.1,TLSv1.2 -e
编译成功后如下图:
编译好的二进制包位于 /opt/github/hadoop/hadoop-dist/target 下,如下图:
5 基于容器制作镜像
切换至宿主机的命令行界面,执行如下命令:
docker commit 1c336d3f1ef2(容器 id) suizhe007/hadoop:v3.3.5.1
等待镜像生成。
6 提交镜像
本文是提交到 docker 官方仓库,需要提前在网页端将仓库创建好,比如这里的账号是 suizhe007,新创建的仓库为 hadoop,提交命令如下:
docker push suizhe007/hadoop:v3.3.5.1
提交成功后,如下图所示:
在其他的装有 docker 的机器上,使用 docker pull
拉取了,本文的制作的镜像拉取命令:
docker pull suizhe007/hadoop:v3.3.5.1
问题
在构建 hadoop 的过程中,我们遇到了很多的问题。这里罗列比较典型的。
1 nodejs 版本过低的问题
异常信息:
The engine "node" is incompatible with this module. Expected version ">=14.0.0". Got "12.22.1"
异常堆栈,如下图:
由上述截图得知,hadoop-yarn-applications-catalog-webapp
工程,打开 pom.xml 文件,找到插件 id: yarn install
,
如下图:
如图,找到变量 nodejs.version
和yarnpkg.version
的定义的 pom.xml 文件,即 hadoop-project 工程,分别改为
<nodejs.version>v17.9.1</nodejs.version>
<yarnpkg.version>v1.22.22</yarnpkg.version>
再次编译通过。
2 如何找出合适的 nodejs 版本呢?
在 docker 系统内安装 nodejs,切换目录到 hadoop-yarn-applications-catalog-webapp
下,使用 yarn install
直接执行看是否通过。具体安装的命令如下:
# 先安装 nvm, 便于切换多版本 nodejs
cd /opt/github/
git clone https://github.com/nvm-sh/nvm.git
source /opt/github/nvm/nvm.sh
#尝试过多版本,ubuntu18.04 支持的最大的版本为 17.9.1,对应的 yarn 版本为 1.22.22,符合 hadoop 兼容的 nodejs 版本
#尝试确定的版本
nvm install v17.9.1
npm install yarn -g
后记
通过本文,为你打开了思路,如何构建一个 build hadoop 的编译环境,主要参考 hadoop 自带的 Dockerfile 文件,基于该文件,稍加做些修改,一次性制作好一个镜像,大大提升了调试,开发,编译 hadoop 效率。