前一篇的Apache Drill效能方面極佳
唯一可惜的點是不能直接存寫hive, hbase
但是如果只需要用到讀取資料
不做insert, update的話,Drill無疑是最佳的方案
前一篇的Apache Drill效能方面極佳
唯一可惜的點是不能直接存寫hive, hbase
但是如果只需要用到讀取資料
不做insert, update的話,Drill無疑是最佳的方案
SQL on Hadoop不外乎Apache Drill, Hive, Hive on Tez, Phoenix,
Cloudera Impala (正在孵化為Apache專案), Presto,
Pivotal HAWQ, IBM BigSQL, Apache Tajo, Apache Kylin等
在這麼多選擇中,我選擇用Drill,以下闡述我的原因
用完Cassandra的primary key跟secondary index之後
覺得Cassandra適合表格有固定query pattern做使用才方便
primary key中的partition key在query時都要用到
clustering key要照順序使用,secondary index不能做複合查詢
更不用提ALLOW FILTERING的功能帶來的崩潰效能
這篇主要是講在centos做一個簡單的file server
上篇部署了Spark on Mesos的環境
而這篇主要是想要使用Spark on Mesos的dynamic resource allocation跟external shuffle service
Dynamic resource allocation是為了能夠讓Spark能夠更有效的使用系統資源的系統
能夠動態的去增加worker以利application的運行,並能realease不在使用中的executor
而這個功能原本只有在Spark on Yarn的配置上才有,2.0.0的Spark也在Mesos上實現支援了