本篇主要在部署Spark on Mesos的環境
使用scala透過sparkSQL去搬移Oracle DB的資料到Cassandra上
這篇主要有兩個目的:
幫ROracle澄清其實沒那麼難用,只是要把table name跟column name都轉成大寫,就不會有double quote了
在scala用sparkSQL連ojdbc7,把Oracle資料拉出來,再透過spark-cassandra-connector把資料倒進Cassandra
基於cassandra的spark 2.0.0環境部署 (scala 2.11)
spark升級到2.0.0,等了幾天
用Nexus建立本地maven倉庫
sbt每次撈maven跟sbt相關的套件時
都會花很多時間,如果能夠透過本地proxy去降低時間就好了
或是在公司內部網路無法access到外部網路時
就能夠透過proxy去處理這類問題
此時,簡單易用的Nexus就提供很好的協助
基於Cassandra的spark環境部署
用Python將Oracle DB的資料匯出到Cassandra
在centos下部署cassandra
這篇是我在centos部署cassandra的紀錄
test on apache sqoop
前四篇分別裝了Hadoop, Oracle, ROracle跟Python的cx_Oracle套件
上兩篇分別利用了ROracle跟cx_Oracle塞了一些資料進去Oracle
接下來是安裝sqoop,試試看用sqoop從Oracle DB把資料撈進HBase
這篇僅是紀錄而已,並沒有成功撈進
在Python用cx_Oracle去操作Oracle資料庫
前一篇用R去操作了Oracle資料庫
結果不幸發現兩件事情:
- 表的名字會自動有quote,你預期的表明應該是airlines,會變成”airlines”
- column name也會自動有quote,你預期的表明應該是name,會變成”name”
在R用ROracle去操作Oracle資料庫
前兩篇裝了Hadoop跟Oracle
為了接下來可以測試sqoop,使用ROracle去塞一下資料表進去
在windows下,安裝ROracle,也測試看看在centos下安裝看看
(Note: modified at 2018/04/19)