共计 3388 个字符,预计需要花费 9 分钟才能阅读完成。
自动写代码机器人,免费开通
这篇文章主要介绍“ClickHouse 集群搭建的方法”,在日常操作中,相信很多人在 ClickHouse 集群搭建的方法问题上存在疑惑,丸趣 TV 小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”ClickHouse 集群搭建的方法”的疑惑有所帮助!接下来,请跟着丸趣 TV 小编一起来学习吧!
ClickHouse 是一个列导向数据库,是原生的向量化执行引擎。它在大数据领域没有走 Hadoop 生态,而是采用 Local attached storage 作为存储,这样整个 IO 可能就没有 Hadoop 那一套的局限。它的系统在生产环境中可以应用到比较大的规模,因为它的线性扩展能力和可靠性保障能够原生支持 shard+replication 这种解决方案。它还提供了一些 SQL 直接接口,有比较丰富的原生 client。
ClickHouse 数据库的特点:
速度快 ClickHouse 性能超过了市面上大部分的列式存储数据库,相比传统的数据 ClickHouse 要快 100-1000 倍,ClickHouse 还是有非常大的优势。1 亿数据集:ClickHouse 比 Vertica 约快 5 倍,比 Hive 快 279 倍,比 MySQL 快 801 倍。10 亿数据集:ClickHouse 比 Vertica 约快 5 倍,MySQL 和 Hive 已经无法完成任务了。
功能多 1. 支持类 SQL 查询;2. 支持繁多库函数 (例如 IP 转化,URL 分析等,预估计算 /HyperLoglog 等);3. 支持数组(Array) 和嵌套数据结构(Nested Data Structure);4. 支持数据库异地复制部署。
要注意,由于 ClickHouse 的快速查询还是基于系统资源的,因此在使用的时候要注意每个节点上的存储量,以及节点机器的系统资源要充足。因为查询时是使用内存进行聚合,所以同时并发查询的数量不能太多,否则就会造成资源崩溃。
环境配置
初始化环境(所有节点)
# 修改机器的 hostname vi /etc/hostname # 配置 hosts vi /etc/hosts 192.168.143.20 node1 192.168.143.21 node2 192.168.143.22 node3
修改完后,执行 hostname node1…3,不用重启机器使其生效
下载并安装 ClickHouse(所有节点)
主要下载四个文件:
Clickhouse-client
Clickhouse-common-static
Clickhouse-server
clickhouse-server-common
rpm -ivh *.rpm
安装 zookeeper(任意一个节点)
# 我这里选择 node1 docker run -d --net host --name zookeeper zookeeper
配置集群(所有节点)
修改 /etc/clickhouse-server/config.xml
!-- 将下面行注释去掉 -- listen_host :: /listen_host !-- 修改默认数据存储目录,比如在 /home 下创建目录 clickhouse -- path /var/lib/clickhouse/ /path !-- 修改为如下 -- path /home/clickhouse/ /path
修改 /etc/clickhouse-server/users.xml
!-- 配置查询使用的内存,根据机器资源进行配置 -- max_memory_usage 5000000000000 /max_memory_usage !-- 在 /users 前面增加用户配置 -- root !-- 通过 Linux 命令计算出密码的 sha256 加密值 -- password_sha256_hex xxxx...xxxx /password_sha256_hex networks ip ::/0 /ip /networks profile default /profile quota default /quota /root
增加配置文件 /etc/metrika.xml
yandex !-- ck 集群节点 -- clickhouse_remote_servers test_cluster shard internal_replication true /internal_replication replica host node1 /host port 9000 /port user root /user password 123456 /password /replica /shard shard internal_replication true /internal_replication replica host node2 /host port 9000 /port user root /user password 123456 /password /replica /shard shard internal_replication true /internal_replication replica host node3 /host port 9000 /port user root /user password 123456 /password /replica /shard /test_cluster !-- zookeeper 相关配置 -- zookeeper-servers node index= 1 host node1 /host port 2181 /port /node /zookeeper-servers networks ip ::/0 /ip /networks macros replica node1 /replica /macros !-- 压缩相关配置 -- clickhouse_compression case min_part_size 10000000000 /min_part_size min_part_size_ratio 0.01 /min_part_size_ratio method lz4 /method /case /clickhouse_compression /clickhouse_remote_servers /yandex
重启 clickhouse 服务
service clickhouse-server restart # 如果不成功,则使用以下命令 nohup /usr/bin/clickhouse-server --config=/etc/clickhouse-server/config.xml $
创建数据表(所有节点)
使用可视化工具连接每个节点,在上面创建 MergeTree
create database test; create table test.data ( country String, province String, value String ) engine=MergeTree() partition by (country, province) order by value;
创建分布式表(node1 节点)
create table test.mo as test.data ENGINE = Distributed(test_cluster, test, data, rand());
使用 Python 连接 clickhouse
安装 clickhouse-driver
pip install clickhouse-driver
执行命令
from clickhouse_driver import Client # 在哪个节点创建了分布式表,就连接哪个节点 client = Client(192.168.143.20 , user= root , password= 123456 , database= test) print(client.execute( select count(*) from mo ))
到此,关于“ClickHouse 集群搭建的方法”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注丸趣 TV 网站,丸趣 TV 小编会继续努力为大家带来更多实用的文章!
向 AI 问一下细节