SnappyData中文博客


  • 首页

  • 关于

  • 分类

  • 归档

SnappyData中SQL新功能:update join与put into

发表于 2018-06-15 | 分类于 业务应用 |
字数统计: 884 | 阅读时长 ≈ 4

update点更新

Spark中的RDD具有不可变性,但是SnappyData中数据是可变的,即使是列表(column table),也是支持更新的。

对于实时的OLAP来讲,这是非常重要的功能,比如订单的状态、剩余的库存等,都是需要实时update操作的。

有些业务也许是纯update只保留最新记录,而有些业务update旧数据的状态,也要insert新数据,以便分析历史变化趋势。

这种复杂的业务数据如果放到druid中,让分析变得非常困难。而SnappyData支持各种类型的update和insert操作,让分析复杂的业务数据变得更简单。

阅读全文 »

客户端连接SnappyData

发表于 2018-05-17 | 分类于 业务应用 |
字数统计: 929 | 阅读时长 ≈ 4

Snappy-SQL交互命令行

通过Apache Derby ij tool,SnappyData实现了一个交互式的命令行工具: snappy。通过此脚本便可在SnappyData集群中运行SQL命令或SQL脚本,此文件位于bin目录下。

在创建JDBC连接前,你可以通过snappy.history指定一个路径,来保留未来执行的所有SQL命令:

1
2
$ export JAVA_ARGS="-Dsnappy.history=/temp/snappydata-history.sql"
$ ./snappy
阅读全文 »

SnappyData在生产中的应用-1

发表于 2018-04-28 | 分类于 业务应用 |
字数统计: 1,434 | 阅读时长 ≈ 5

一、建表原则

SnappyData中的表可以简单分为维度表与事实表两类,除此之外还有流表、采样表与临时表等,这里只讨论维度表与事实表,用于实时的、自由的、极速的、探索性的OLAP分析(Realtime-OLAP)。

通常建议将数据量较少的(万级别以下)维度表设置为replicated的行表,这样维度表会在每个节点中分别存一份。但是如果遇到维度表比较大且也会发生变化时(十万、百万级别以上),建议将表创建为列表,hash分区键指定为与事实表相同的列,例如goods_id列,此时的维度表就变为了事实表。

事实表的数据量通常较大,一般设置为列表,hash分区键指定为与维度表相同的列,且明确指出与维度表进行colocate存储。目前列表上暂不支持对分区键的二级list分区或range分区。

阅读全文 »

Google Shasta解读

发表于 2018-04-09 | 分类于 论文 |
字数统计: 1,399 | 阅读时长 ≈ 5

Shasta系统架构

Google内部广告业务的数据分析,需要满足3方面的需求:

1
2
3
1、查询的延迟要低
2、查询的表达要简单
3、查询的结果要及时更新
阅读全文 »

SnappyData与Presto,Druid,Kylin,ES的对比-2

发表于 2018-04-04 | 分类于 对比 |
字数统计: 2,288 | 阅读时长 ≈ 8

OLAP简介

On-Line Analytical Processing,简称OLAP,即联机分析处理,其主要的功能在于方便大规模数据分析及统计计算,对决策提供参考和支持。

OLAP发展到现在的阶段,很多的查询分析需求具有以下4种显著的特点:

1
2
3
4
1、数据量大
2、高速响应
3、灵活交互
4、多维分析

现代OLAP特点

阅读全文 »

SnappyData架构

发表于 2018-03-21 | 分类于 科普 |
字数统计: 3,493 | 阅读时长 ≈ 13

SnappyData既是个存储引擎,也是个计算引擎。这篇文章主要针对SnappyData的核心组件与整体架构进行讲解,并涉及数据模型、数据注入流程、如何响应SQL请求、集群角色和集群管理等内容

核心组件

SnappyData融合了GemFire与Spark,其中,图中灰色背景的来源于Spark中的组件。

说存储

阅读全文 »

SnappyData与TiDB,Spark,Flink的对比-1

发表于 2018-03-19 | 分类于 对比 |
字数统计: 913 | 阅读时长 ≈ 3

SnappyData是什么?

SnappyData是一个开源的内存分布式存储与计算引擎,提供实时的、HTAP(OLTP+OLAP)场景的解决方案,融合了Apache Spark与GemFire数据库,以多种数据模型提供复杂的、实时的、多维度的OLAP分析,完全支持标准SQL与Spark SQL。

分析人员只需通过SQL便可对实时数据进行低延迟且高准确性的分析工作。

SnappyData的特性

1
2
3
4
5
6
7
8
9
1、分布式存储+计算引擎
2、完全基于内存
3、融合了Gemfire与Apache Spark的特性
4、支持行存,且支持列存(压缩)
5、对行存与列存都支持DML操作
6、区分开源版本与闭源版本(支持off-heap与AQP功能)
7、存储时可指定关联关系,使得数据本地化(colocate),多表join性能是Spark的20倍+
8、完全兼容Spark,支持标准SQL与Spark SQL
9、对实时数据的处理只需用标准SQL或Spark SQL即可,同时由于其存储明细数据,使得对实时数据的处理既支持乱序又支持Retraction,非常适合ad-hoc类查询
阅读全文 »

欢迎来到SnappyData中文博客

发表于 2018-03-19 | 分类于 科普 |
字数统计: 209 | 阅读时长 ≈ 1

关于SnappyData

SnappyData是一个开源的、内存分布式**存储与计算引擎,提供实时的、HTAP(OLTP+OLAP)**场景的解决方案。

它融合了Apache Spark与GemFire数据库,以多种数据模型(行表+列表)提供复杂的、实时的、多维度的OLAP分析与OLTP事务处理,完全支持标准SQL与Spark SQL。

分析人员只需通过SQL便可对实时数据进行低延迟与高准确性(对乱序的处理与Retraction的支持)的分析工作。

阅读全文 »
经营效率小队

经营效率小队

8 日志
4 分类
RSS
GitHub E-Mail Google Twitter
友情链接
  • SnappyData专业中文社区
© 2018 经营效率小队