ClickHouse集群搭建的方法

53次阅读
没有评论

共计 3388 个字符,预计需要花费 9 分钟才能阅读完成。

自动写代码机器人,免费开通

这篇文章主要介绍“ClickHouse 集群搭建的方法”,在日常操作中,相信很多人在 ClickHouse 集群搭建的方法问题上存在疑惑,丸趣 TV 小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”ClickHouse 集群搭建的方法”的疑惑有所帮助!接下来,请跟着丸趣 TV 小编一起来学习吧!

ClickHouse 是一个列导向数据库,是原生的向量化执行引擎。它在大数据领域没有走 Hadoop 生态,而是采用 Local attached  storage 作为存储,这样整个 IO 可能就没有 Hadoop 那一套的局限。它的系统在生产环境中可以应用到比较大的规模,因为它的线性扩展能力和可靠性保障能够原生支持 shard+replication 这种解决方案。它还提供了一些 SQL 直接接口,有比较丰富的原生 client。

ClickHouse 数据库的特点:

速度快 ClickHouse 性能超过了市面上大部分的列式存储数据库,相比传统的数据 ClickHouse 要快 100-1000 倍,ClickHouse 还是有非常大的优势。1 亿数据集:ClickHouse 比 Vertica 约快 5 倍,比 Hive 快 279 倍,比 MySQL 快 801 倍。10 亿数据集:ClickHouse 比 Vertica 约快 5 倍,MySQL 和 Hive 已经无法完成任务了。

功能多 1. 支持类 SQL 查询;2. 支持繁多库函数 (例如 IP 转化,URL 分析等,预估计算 /HyperLoglog 等);3. 支持数组(Array) 和嵌套数据结构(Nested  Data Structure);4. 支持数据库异地复制部署。

要注意,由于 ClickHouse 的快速查询还是基于系统资源的,因此在使用的时候要注意每个节点上的存储量,以及节点机器的系统资源要充足。因为查询时是使用内存进行聚合,所以同时并发查询的数量不能太多,否则就会造成资源崩溃。

环境配置

ClickHouse 集群搭建的方法

初始化环境(所有节点)

#  修改机器的 hostname vi /etc/hostname #  配置 hosts vi /etc/hosts 192.168.143.20 node1 192.168.143.21 node2 192.168.143.22 node3

修改完后,执行 hostname node1…3,不用重启机器使其生效

下载并安装 ClickHouse(所有节点)

ClickHouse 集群搭建的方法

主要下载四个文件:

Clickhouse-client

Clickhouse-common-static

Clickhouse-server

clickhouse-server-common

rpm -ivh *.rpm

安装 zookeeper(任意一个节点)

#  我这里选择 node1 docker run -d --net host --name zookeeper zookeeper

  配置集群(所有节点)

修改 /etc/clickhouse-server/config.xml

!--  将下面行注释去掉  --   listen_host :: /listen_host   !--  修改默认数据存储目录,比如在 /home 下创建目录 clickhouse --   path /var/lib/clickhouse/ /path   !--  修改为如下  --   path /home/clickhouse/ /path

修改 /etc/clickhouse-server/users.xml

!--  配置查询使用的内存,根据机器资源进行配置  --   max_memory_usage 5000000000000 /max_memory_usage   !--  在 /users 前面增加用户配置  --   root   !--  通过 Linux 命令计算出密码的 sha256 加密值  --   password_sha256_hex xxxx...xxxx /password_sha256_hex   networks   ip ::/0 /ip   /networks   profile default /profile   quota default /quota   /root

增加配置文件 /etc/metrika.xml

yandex   !-- ck 集群节点  --   clickhouse_remote_servers   test_cluster   shard   internal_replication true /internal_replication   replica   host node1 /host   port 9000 /port   user root /user   password 123456 /password   /replica   /shard   shard   internal_replication true /internal_replication   replica   host node2 /host   port 9000 /port   user root /user   password 123456 /password   /replica   /shard   shard   internal_replication true /internal_replication   replica   host node3 /host   port 9000 /port   user root /user   password 123456 /password   /replica   /shard   /test_cluster   !-- zookeeper 相关配置 --   zookeeper-servers   node index= 1   host node1 /host   port 2181 /port   /node   /zookeeper-servers   networks   ip ::/0 /ip   /networks   macros   replica node1 /replica   /macros   !--  压缩相关配置  --   clickhouse_compression   case   min_part_size 10000000000 /min_part_size   min_part_size_ratio 0.01 /min_part_size_ratio   method lz4 /method   /case   /clickhouse_compression   /clickhouse_remote_servers   /yandex

重启 clickhouse 服务

service clickhouse-server restart #  如果不成功,则使用以下命令  nohup /usr/bin/clickhouse-server --config=/etc/clickhouse-server/config.xml $

  创建数据表(所有节点)

使用可视化工具连接每个节点,在上面创建 MergeTree

create database test; create table test.data ( country String, province String, value String ) engine=MergeTree() partition by (country, province) order by value;

  创建分布式表(node1 节点)

create table test.mo as test.data ENGINE = Distributed(test_cluster, test, data, rand());

使用 Python 连接 clickhouse

安装 clickhouse-driver

pip install clickhouse-driver

执行命令

from clickhouse_driver import Client #  在哪个节点创建了分布式表,就连接哪个节点  client = Client(192.168.143.20 , user= root , password= 123456 , database= test) print(client.execute( select count(*) from mo ))

到此,关于“ClickHouse 集群搭建的方法”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注丸趣 TV 网站,丸趣 TV 小编会继续努力为大家带来更多实用的文章!

向 AI 问一下细节

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-12-04发表,共计3388字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)