<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
<scope>test</scope>
</dependency>
import org.junit.*;
import static org.junit.Assert.*;
默认仓库拉取速度慢,配置阿里云maven库
在setting.xml
文件中设置
<mirror>
<id>aliyunmaven</id>
<mirrorOf>central</mirrorOf>
<name>阿里云公共仓库</name>
<url>https://maven.aliyun.com/repository/public</url>
</mirror>
当出现File encoding has not been set
时,添加如下配置
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
原始版本发布在InfoQ上: OpenLookeng 连接器 -Clickhouse connector 性能测试报告
OpenLooKeng是一款开源的高性能数据虚拟化引擎,提供统一SQL接口,可以实现对多个数据库的跨源异构和跨域跨DC查询。
ClickHouse是Yandex开源的一个用于实时数据分析的基于列存储的数据库,其工作速度比传统方法快100-1000倍,性能超过了目前市场上的列式存储数据库1。
ClickHouse connector2是为OpenLookeng开发的用于访问Clickhouse数据源的连接器,截止测试时最新版本更新至2020-12-24日的b2162c5
,已支持对常见数据类型和函数的映射,详细支持列表可见https://gitee.com/heatao/hetu-core/blob/48650aa794c90a871df15661bf77f25225fd09c5/hetu-docs/zh/connector/clickhouse.md
使用SSB测试基准提供的数据和SQL查询语句,对OpenLookeng的ClickHouse connector的性能进行评估。
IP | 操作系统 | 内核版本 | 文件系统类型 |
---|---|---|---|
192.168.40.152 | CentOS Linux release 7.4.1708 | 3.10.0-693.el7.x86_64 | xfs |
192.168.40.223 | CentOS Linux release 7.7.1908 | 3.10.0-1062.12.1.el7.x86_64 | xfs |
192.168.40.152 | 192.168.40.223 | |
---|---|---|
CPU | Intel(R) Xeon(R) Silver 4114 CPU @ 2.20GHz | Intel(R) Xeon(R) CPU E5-2698 v3 @2.30GHz |
内存 | 128G | 128G |
软件 | 位置 | 版本 |
---|---|---|
OpenLookeng | 192.168.40.152 | 1.0.1 |
Clickhouse | 192.168.40.152 | 20.3.12.112 |
Clickhouse | 192.168.40.223 | 20.3.12.112 |
用于从url中提取域名
pip3 install tldextract
import tldextract
tld = tldextract.extract('http://news.baidu.com/')
print(tld)
# result: ExtractResult(subdomain='news', domain='baidu', suffix='com')
Star Schema Benchmark(简称SSB)是基于TPC-H修改,用于评测星型数据库性能的测试标准,原始工具地址位于https://github.com/Kyligence/ssb-kylin
原始SSB为Apach Kylin数据库设计,这里使用https://github.com/vadimtk/ssb-dbgen提供的工具进行测试,此测试中不再是星型查询,而是将star schema转换为flat schema再进行查询
$ git clone git@github.com:vadimtk/ssb-dbgen.git
$ cd ssb-dbgen
$ make
使用参数-s 10
,最后生成6.7G数据,59,986,052条数据
$ ./dbgen -s 10 -T c
$ ./dbgen -s 10 -T l
$ ./dbgen -s 10 -T p
$ ./dbgen -s 10 -T s
$ ./dbgen -s 10 -T d