Ching-Chuan Chen's Blogger

Apache Hive with Apache Drill

Posted on 2016-09-21 Edited on 2018-03-15 In BigData Disqus:

前一篇的Apache Drill效能方面極佳

唯一可惜的點是不能直接存寫hive, hbase

但是如果只需要用到讀取資料

不做insert, update的話，Drill無疑是最佳的方案

Apache Drill

Posted on 2016-09-20 Edited on 2018-03-15 In BigData Disqus:

SQL on Hadoop不外乎Apache Drill, Hive, Hive on Tez, Phoenix,

Cloudera Impala (正在孵化為Apache專案), Presto,

Pivotal HAWQ, IBM BigSQL, Apache Tajo, Apache Kylin等

在這麼多選擇中，我選擇用Drill，以下闡述我的原因

重返Hadoop Architecture (設定HA群集)

Posted on 2016-09-19 Edited on 2018-03-15 In BigData Disqus:

用完Cassandra的primary key跟secondary index之後

覺得Cassandra適合表格有固定query pattern做使用才方便

primary key中的partition key在query時都要用到

clustering key要照順序使用，secondary index不能做複合查詢

更不用提ALLOW FILTERING的功能帶來的崩潰效能

使用python的套件supervisor監控程式 - 以Cassandra, Spark, Mesos為例

Posted on 2016-09-15 Edited on 2018-03-15 In BigData Disqus:

Python的supervisor是一套簡單、輕量的監控系統服務之工具

透過簡單的安裝跟些許的設定即可以達到想要的效果

Spark assembly

Posted on 2016-09-15 Edited on 2018-03-15 In BigData Disqus:

之前一直配置失敗的Spark assembly

今天花了點時間GOOGLE，終於可以成功assembly了

也可以擺脫在Spark設定時候那些Jars檔了

sparklyr extensions

Posted on 2016-09-10 Edited on 2018-03-15 In R Disqus:

稍微介紹一下sparklyr的extension寫法

但是細節都還在研究，只是環境的配置跟使用官方的extension套件而已

SparkR初探

Posted on 2016-09-09 Edited on 2018-03-15 In R Disqus:

雖然順序有點反了，先介紹了sparklyr

這裡就簡單show一下怎麼用SparkR，並且去拉Cassandra的table

sparklyr初探，並連接Cassandra使用

Posted on 2016-09-08 Edited on 2018-03-15 In R Disqus:

RStudio推出了一個感覺很厲害的套件sparklyr

可以讓dplyr變得lazy，然後去即時的操作Spark中的dataFrame

simple file server in centos

Posted on 2016-09-07 Edited on 2018-03-15 In Linux Disqus:

這篇主要是講在centos做一個簡單的file server

Spark on Mesos: dynamic resource allocation

Posted on 2016-08-26 Edited on 2018-03-15 In BigData Disqus:

上篇部署了Spark on Mesos的環境

而這篇主要是想要使用Spark on Mesos的dynamic resource allocation跟external shuffle service

Dynamic resource allocation是為了能夠讓Spark能夠更有效的使用系統資源的系統

能夠動態的去增加worker以利application的運行，並能realease不在使用中的executor

而這個功能原本只有在Spark on Yarn的配置上才有，2.0.0的Spark也在Mesos上實現支援了