Ching-Chuan Chen's Blogger

Statistics, Machine Learning and Programming

0%

前一篇的Apache Drill效能方面極佳

唯一可惜的點是不能直接存寫hive, hbase

但是如果只需要用到讀取資料

不做insert, update的話,Drill無疑是最佳的方案

Read more »

SQL on Hadoop不外乎Apache Drill, Hive, Hive on Tez, Phoenix,

Cloudera Impala (正在孵化為Apache專案), Presto,

Pivotal HAWQ, IBM BigSQL, Apache Tajo, Apache Kylin等

在這麼多選擇中,我選擇用Drill,以下闡述我的原因

Read more »

用完Cassandra的primary key跟secondary index之後

覺得Cassandra適合表格有固定query pattern做使用才方便

primary key中的partition key在query時都要用到

clustering key要照順序使用,secondary index不能做複合查詢

更不用提ALLOW FILTERING的功能帶來的崩潰效能

Read more »

之前一直配置失敗的Spark assembly

今天花了點時間GOOGLE,終於可以成功assembly了

也可以擺脫在Spark設定時候那些Jars檔了

Read more »

稍微介紹一下sparklyr的extension寫法

但是細節都還在研究,只是環境的配置跟使用官方的extension套件而已

Read more »

雖然順序有點反了,先介紹了sparklyr

這裡就簡單show一下怎麼用SparkR,並且去拉Cassandra的table

Read more »

上篇部署了Spark on Mesos的環境

而這篇主要是想要使用Spark on Mesos的dynamic resource allocation跟external shuffle service

Dynamic resource allocation是為了能夠讓Spark能夠更有效的使用系統資源的系統

能夠動態的去增加worker以利application的運行,並能realease不在使用中的executor

而這個功能原本只有在Spark on Yarn的配置上才有,2.0.0的Spark也在Mesos上實現支援了

Read more »