over 3 years ago

練習安裝Mahout跟驗證

1.準備環境

CentOS-6.5-x64
jdk-6u45-linux-i586.bin
hadoop-2.2.0.tar.gz
可參考之前安裝Hadoop完全分散式

2.安裝 Mahout 0.9

使用hduser帳戶

sudo wget http://apache.osuosl.org/mahout/0.9/mahout-distribution-0.9.tar.gz
sudo tar zxvf mahout-distribution-0.9.tar.gz
export MAHOUT_HOME=/opt/mahout-distribution-0.9
export PATH=$MAHOUT_HOME/bin:$PATH

如果要想Mahout運行在Hadoop上,則MAHOUT_LOCAL必須為空

export MAHOUT_LOCAL=

啟動Hadoop

/opt/hadoop/sbin/start-dfs.sh
/opt/hadoop/sbin/start-yarn.sh

3驗證安裝是否正確

mahout

像下圖這樣基本上就沒錯了

接下來我們執行一下範例資料

#建立暫存用工作資料夾
mkdir /tmp/canopy
export WORK_DIR=/tmp/canopy
cd $WORK_DIR

#下載範例資料
wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

#上傳到Hadoop
hadoop fs -mkdir /user/hduser/testdata
hadoop fs -put ${WORK_DIR}/synthetic_control.data /user/hduser/testdata

#執行範例程式
mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

執行範例程式會花點時間跑10來個Job吧


結果輸出結果存在這裡

不過檔案似乎是sequenceFile無法直接看

一樣用範例程式轉成一般文字檔

mahout seqdumper -i output/clusteredPoints -o clusteredPoints

轉檔結果會存在當前目錄,使用cat或vi來看

cat clusteredPoints

大致上就已經驗證安裝跟執行都沒問題了,之後再花點時間研究那些演算法吧(最難就在這啦)

參考資料來源
http://www.bkjia.com/yjs/738261.html
http://blog.csdn.net/stanely_hwang/article/details/20044323
http://blog.csdn.net/cucmakeit/article/details/22723339
http://ko.bubufx.com/infodetail_23656.html
http://shaurong.blogspot.tw/2013/12/apache-mahout-08-bin-centos-65-x64.html
http://zcdeng.iteye.com/blog/1859711
http://www.360doc.com/content/14/0117/09/1200324_345883534.shtml
http://openresearch.baidu.com/activitybulletin/450.jhtml
http://zcdeng.iteye.com/blog/1859711
http://ko.bubufx.com/infodetail_23656.html

http://mahout.apache.org/general/downloads.html
http://ftp.twaren.net/Unix/Web/apache/mahout/0.9/

← Centos虛擬機網路不見解決方法 使用Maven管理WEB專案套件 →
 
comments powered by Disqus