SnappyData中SQL新功能:update join与put into

发表于 2018-06-15 | 分类于业务应用 |

字数统计: 884 | 阅读时长 ≈ 4

update点更新

Spark中的RDD具有不可变性，但是SnappyData中数据是可变的，即使是列表(column table)，也是支持更新的。

对于实时的OLAP来讲，这是非常重要的功能，比如订单的状态、剩余的库存等，都是需要实时update操作的。

有些业务也许是纯update只保留最新记录，而有些业务update旧数据的状态，也要insert新数据，以便分析历史变化趋势。

这种复杂的业务数据如果放到druid中，让分析变得非常困难。而SnappyData支持各种类型的update和insert操作，让分析复杂的业务数据变得更简单。

阅读全文 »

客户端连接SnappyData

发表于 2018-05-17 | 分类于业务应用 |

字数统计: 929 | 阅读时长 ≈ 4

Snappy-SQL交互命令行

通过Apache Derby ij tool，SnappyData实现了一个交互式的命令行工具: snappy。通过此脚本便可在SnappyData集群中运行SQL命令或SQL脚本，此文件位于bin目录下。

在创建JDBC连接前，你可以通过snappy.history指定一个路径，来保留未来执行的所有SQL命令:

1 2	$ export JAVA_ARGS="-Dsnappy.history=/temp/snappydata-history.sql" $ ./snappy

阅读全文 »

SnappyData在生产中的应用-1

发表于 2018-04-28 | 分类于业务应用 |

字数统计: 1,434 | 阅读时长 ≈ 5

一、建表原则

SnappyData中的表可以简单分为维度表与事实表两类，除此之外还有流表、采样表与临时表等，这里只讨论维度表与事实表，用于实时的、自由的、极速的、探索性的OLAP分析(Realtime-OLAP)。

通常建议将数据量较少的(万级别以下)维度表设置为replicated的行表，这样维度表会在每个节点中分别存一份。但是如果遇到维度表比较大且也会发生变化时(十万、百万级别以上)，建议将表创建为列表，hash分区键指定为与事实表相同的列，例如goods_id列，此时的维度表就变为了事实表。

事实表的数据量通常较大，一般设置为列表，hash分区键指定为与维度表相同的列，且明确指出与维度表进行colocate存储。目前列表上暂不支持对分区键的二级list分区或range分区。

阅读全文 »

Google Shasta解读

发表于 2018-04-09 | 分类于论文 |

字数统计: 1,399 | 阅读时长 ≈ 5

Shasta系统架构

Google内部广告业务的数据分析，需要满足3方面的需求：

1
2
3

1、查询的延迟要低
2、查询的表达要简单
3、查询的结果要及时更新

阅读全文 »

SnappyData与Presto,Druid,Kylin,ES的对比-2

发表于 2018-04-04 | 分类于对比 |

字数统计: 2,288 | 阅读时长 ≈ 8

OLAP简介

On-Line Analytical Processing，简称OLAP，即联机分析处理，其主要的功能在于方便大规模数据分析及统计计算，对决策提供参考和支持。

OLAP发展到现在的阶段，很多的查询分析需求具有以下4种显著的特点：

1、数据量大
2、高速响应
3、灵活交互
4、多维分析

现代OLAP特点

阅读全文 »

SnappyData架构

发表于 2018-03-21 | 分类于科普 |

字数统计: 3,493 | 阅读时长 ≈ 13

SnappyData既是个存储引擎，也是个计算引擎。这篇文章主要针对SnappyData的核心组件与整体架构进行讲解，并涉及数据模型、数据注入流程、如何响应SQL请求、集群角色和集群管理等内容

核心组件

SnappyData融合了GemFire与Spark，其中，图中灰色背景的来源于Spark中的组件。

说存储

阅读全文 »

SnappyData与TiDB,Spark,Flink的对比-1

发表于 2018-03-19 | 分类于对比 |

字数统计: 913 | 阅读时长 ≈ 3

SnappyData是什么？

SnappyData是一个开源的内存分布式存储与计算引擎，提供实时的、HTAP(OLTP+OLAP)场景的解决方案，融合了Apache Spark与GemFire数据库，以多种数据模型提供复杂的、实时的、多维度的OLAP分析，完全支持标准SQL与Spark SQL。

分析人员只需通过SQL便可对实时数据进行低延迟且高准确性的分析工作。

SnappyData的特性

1、分布式存储+计算引擎
2、完全基于内存
3、融合了Gemfire与Apache Spark的特性
4、支持行存，且支持列存(压缩)
5、对行存与列存都支持DML操作
6、区分开源版本与闭源版本(支持off-heap与AQP功能)
7、存储时可指定关联关系，使得数据本地化(colocate)，多表join性能是Spark的20倍+
8、完全兼容Spark，支持标准SQL与Spark SQL
9、对实时数据的处理只需用标准SQL或Spark SQL即可，同时由于其存储明细数据，使得对实时数据的处理既支持乱序又支持Retraction，非常适合ad-hoc类查询

阅读全文 »

欢迎来到SnappyData中文博客

发表于 2018-03-19 | 分类于科普 |

字数统计: 209 | 阅读时长 ≈ 1

关于SnappyData

SnappyData是一个开源的、内存分布式**存储与计算引擎，提供实时的、HTAP(OLTP+OLAP)**场景的解决方案。

它融合了Apache Spark与GemFire数据库，以多种数据模型(行表+列表)提供复杂的、实时的、多维度的OLAP分析与OLTP事务处理，完全支持标准SQL与Spark SQL。

分析人员只需通过SQL便可对实时数据进行低延迟与高准确性(对乱序的处理与Retraction的支持)的分析工作。

阅读全文 »