MariaDB의 FederatedX 엔진으로 데이터를 주물러보자.

Posted on 2014-12-30 | by gywndi

Overview

FederatedX는 MariaDB에서 제공하는 확장된 기능의 Federated이며, 기본적으로 MariaDB에서는 별다른 옵션 없이 사용할 수 있습니다.

바로 이전 포스팅(http://j.mp/16VA8x6)에서는 이 FederatedX 엔진을 활용하여 대용량 테이블을 서비스에 큰 지장없이 이관을 했던 사례에 대해서 정리를 했었는데요. 이 경험을 바탕으로 서비스에서 조금 더 유용하게 활용할 수 있을 방안에 대해서 상상(?)을 해보았습니다.

즉, 지금부터는 FederatedX 엔진 관련된 테스트를 바탕으로 정리하는 내용이오니, 만약 실 서비스에 적용하고자 한다면 반드시 검증 후 진행하셔야 합니다. ^^

Why FederatedX?

단일 데이터베이스의 성능을 따지자면, 굉장한 퍼포먼스를 발휘하는 MySQL 이기는 합니다만.. SNS 서비스 환경에서는 결코 단일 서버로는 커버 불가능합니다. 이 상황에서는 반드시 샤딩(데이터를 분산 처리) 구조로 설계를 해야하는데, 한번 구성된 샤딩은 온라인 중에 변경하기가 참으로 어렵습니다.

서비스 순단을 발생할 수 있지만, 온라인으로 데이터를 재배치를 할 수 있는 방법은 없을까? 하는 생각을 하던 와중에, 저는 FederatedX 엔진에서 해답을 찾았습니다.

MariaDB에서 제공하는 FederatedX엔진은 MySQL에서 제공하는 기능 외에 트랜잭션 및 파티셔닝 기능이 확장되어 있는데, 이 두가지 특성을 활용한다면 앞선 그림처럼 기존 데이터 구조를 원하는 형태로 재배치할 수 있다는 생각이 번뜩 났습니다. ㅎㅎ

단, 아래에서 설명할 모든 상황들은 아래 4 가지 상황이어야한다는 가정이 필요합니다.

샤드 키 업데이트는 없어야 한다.
업데이터 시 기존 샤드 데이터가 DELETE되지 않음
ALTER 작업은 없어야 한다.
FederatedX 스키마 변경 불가
샤드 키는 문자열 타입이어서는 안된다.
문자열로는 Range 파티셔닝 사용 불가
원본 서버 Binary Log은 ROW 포멧이어야 한다.
FederatedX 에서 일부 쿼리 미지원
ex) INSERT INTO .. ON DUPLICATE UPDATE

자, 각 상황에 맞게 이쁜(?) 그림으로 간단하게 살펴보도록 할까요?

1) 샤드 재배치

기존 샤드를 재배치하는 경우인데, 만약 일정 범위(1~100, 101~200)로 데이터가 분산 저장되어 있는 경우를 해시 기준으로 변경하고 싶을 때 유용하게 적용가능할 것이라고 생각되는데요.

위 상황에서 FederatedX1과 FederatedX2을 다음과 같은 스키마 구성합니다.

CREATE TABLE `tab` (
  `p_id` int(11) NOT NULL,
  `col01` bigint(20) NOT NULL,
  `col02` bigint(20) NOT NULL,
  PRIMARY KEY (`user_id`)
) ENGINE=FEDERATED
PARTITION BY LIST (mod(p_id,3))
(PARTITION p0 VALUES IN (0) ENGINE = FEDERATED connection='mysql://feduser:fedpass@Nshard1_host:3306/db/tab',
 PARTITION p1 VALUES IN (1) ENGINE = FEDERATED connection='mysql://feduser:fedpass@Nshard2_host:3306/db/tab',
 PARTITION p1 VALUES IN (1) ENGINE = FEDERATED connection='mysql://feduser:fedpass@Nshard3_host:3306/db/tab');

원본 샤드 데이터를 각 FederatedX에 Import 후 리플리케이션 구성하면, 파티셔닝 정의에 맞게 데이터샤드들이 저장되겠죠? ^^

단, 데이터 동기화에 가장 큰 요소는 바로.. Network Latency입니다. 동일 IDC, 다른 스위치 장비에 물려있는 DB 경우에는 약 초당 500 ~ 700 rows정도 데이터 변경이 이루어졌습니다. 물론, 동일 스위치 경우에는 이보다 훨씬 더 좋은 데이터 변경 처리가 이루어질 것이라고 예측됩니다만.. 흠.. 이것은 기회가 된다면, 테스트하고 싶네요. ^^;;

2) 로컬 데이터 재구성

아래와 같이 현재의 DB 혹은 테이블을 여러 개의 객체로 찢는 경우를 말할 수 있는데요, 앞서 치명적인 요소가 되었던 Network Latency는 이 상황에서는 별다른 문제가 되지 않습니다. 모든 통신이 메모리 상에서 이루어지기 때문에, 본연의 속도가 나올 수 있는 것이죠. ^^

FederatedX 전용 서버를 다음과 같은 설정(/etc/my_fed.cnf)으로 구동하도록 합니다. 포트는 13306으로 띄운다는 가정으로..

[mysqld_safe]
timezone = UTC
 
[mysqld]
port     = 13306
socket   = /tmp/mysql_fed.sock
character-set-server = utf8
skip-innodb
server-id = xxx
binlog_format = row
 
[client]
port    = 13306
socket    = /tmp/mysql_fed.sock
 
[mysql]
no-auto-rehash
default-character-set = utf8

FederatedX 전용 서버를 간단하게 아래와 같이 띄우면 되겠죠? ㅎ

/usr/local/mysql/bin/mysqld_safe --defaults-file=/etc/my_fed.cnf

그후 아래와 같이 FederatedX 테이블을 생성 후 원본 테이블 데이터 Import 후 리플리케이션을 맺어주면, DB별로 데이터가 재배치된 샤드 형태가 완성됩니다. ^^

CREATE TABLE `tab` (
  `p_id` int(11) NOT NULL,
  `col01` bigint(20) NOT NULL,
  `col02` bigint(20) NOT NULL,
  PRIMARY KEY (`user_id`)
) ENGINE=FEDERATED
PARTITION BY LIST (mod(p_id,3))
(PARTITION p0 VALUES IN (0) ENGINE = FEDERATED connection='mysql://feduser:fedpass@127.0.0.1:3306/db1/tab',
 PARTITION p1 VALUES IN (1) ENGINE = FEDERATED connection='mysql://feduser:fedpass@127.0.0.1:3306/db2/tab',
 PARTITION p2 VALUES IN (2) ENGINE = FEDERATED connection='mysql://feduser:fedpass@127.0.0.1:3306/db3/tab');

테스트를 해보니 초당 수천 건 데이터 변경이 가능하며, 단일 서버 데이터 재배치에 가장 유용하게 활용될 수 있다고 생각되네요.

3) 데이터 통합

늘 서비스가 잘되면 참 좋겠지만.. 때로는 망해가는 서비스의 DB를 한곳으로 몰아야할 경우도 있습니다. ㅜㅜ 앞에서 설명한 것들을 이 상황에 맞게 조금만 수정을 하면 되니, 굳이 길게 설명은 하지 않도록 하겠습니다.

단, 기존 샤드의 데이터가 샤드키에 맞게 엄격하게 분리가 되어 있어야 합니다. (리플리케이션에서 충돌날 수 있어요!!)

4) 아카이빙

수년을 보관해야하는 당장 정리가 불가한 콜드데이터 성격의 데이터를 한 곳에 모은다는 컨셉인데요.. 이에 대한 것은 사전에 안정성 테스트 반드시 필요합니다. (어디까지나 테스트를 바탕으로 활용 가능한 상황인지라.. ^^;;)

하루에 한번씩 돌아가면서 리플리케이션 IO_THREAD를 ON/OFF를 하게되면, 다수의 데이터베이스로부터 오는 데이터를 쉽게 한 곳으로 모을 수 있겠죠. 만약, 원본 테이블에서 파티셔닝 관리를 한다면, 이에 대한 에러 스킵 설정을 FederatedX에 미리 정의해놓으면 참 좋겠네요. ^^

Conclusion

처음에 버리다시피 전혀 검토를 하지 않았던 FederatedX를 다른 시각으로 발상을 전환해보니, 매우 활용할 수 있는 분야가 많았습니다. 물론 아직 실 서비스에서 직접 해보지는 않았지만, 이에 대한 각 테스트를 해보니 충분히 활용해볼 만한 여지는 있었습니다.

참고로, 위에서 설명하지는 않았지만, FederatedX +Blackhole을 활용하게 된다면, Network Latency 극복을 어느정도 할 수 있다고 생각합니다.

부족한 설명을 읽어주셔셔 감사합니다. ^^

MariaDB의 FederatedX 엔진을 활용한 9억 데이터 이관기

Posted on 2014-12-27 | by gywndi

Overview

대용량 로그 테이블은 때로는 서비스에 지대한 영향을 미치기도 합니다. 게다가 이 테이블을 파티셔닝 구성을 해야하는데, 이를 서비스 운영 중인 상태에서 마스터 장비에서 Import하는 것은 사실 대단히 위험한 시도이기도 하죠.

이런 상황에서 얼마 전 FederatedX엔진을 활용하여 9억 데이터를 이관한 사례가 있는데, 이에 대해 공유하도록 하겠습니다. ^^

Goal

9억 건의 데이터를 Import하는 동안 서비스에는 어떠한 영향도 없어야 하며, 구성 후 어플리케이션 적용 전까지 데이터가 정상적으로 동기화되어야 합니다.

데이터 이동하는 동안 기존 서비스 영향 최소화 및 문제 발생 시 빠른 원복
데이터 구성 후 어플리케이션 코드 배포 전까지 데이터 동기화
데이터 보관 주기 정책에 따른 유연한 대처
현재는 삭제 주기가 없으나, 추후 정책에 따라 변경 가능

Let me SEE..

가야할 골이 정해졌으니.. 현재 상황에 대해서 분석을 해봐야겠죠. ㅎㅎ 다음은 DB 사용 현황에 대한 내용입니다.

1) 소스 서버

Engine : InnoDB
QPS(Except SELECT) : 200qps, (MAX)500qps
대상 테이블
- download_log – 76G / 3.8억
- open_log – 96G / 5.5억

2) 타겟 서버

Engine : TokuDB
QPS(Except SELECT) : 150qps, (MAX)300qps

서버 트래픽이 크지는 않지만, 9억 건 이상의 데이터를 타 서비스 DB로 마이그레이션을 해야하는 상황이었습니다. 그렇기에 서비스에 어떠한 영향도 없어야하며, 문제 발생 시에도 빠르게 롤백할 수 있는 방법이 되어야만 합니다.

How to Migrate?

이런 상황에서라면, 타겟 마스터 장비를 소스 마스터 혹은 슬레이브 장비와 리플리케이션을 걸어서 특정 테이블만 데이터 싱크를 맞추는 방법이 있겠습니다.

그러나, 9억 건 이상의 데이터이고, 서비스 영향없이 마스터 장비로 데이터를 넣어야 하기 때문에.. 목적에 적합한 방법은 아닌 듯 하네요. 슬레이브를 활용하고자 해도, 멀티 소스 리플리케이션을 활용할 수 있는 상황도 아니었으며, 기존 서비스 리플리케이션을 건들여야하기 때문에 깔끔해 보이지는 않았고요.

그래서 아이디어를 낸 방법이, 슬레이브 장비에 FederatedX 스토리지 엔진 전용의 MySQL 데몬을 하나 더 띄워서 데이터 이관을 하는 것이었습니다. 서비스 투입 직전 데이터 흐름을 간단하게 그림으로 표현해 보았습니다.

Migrate-With-FerderatedX-1

그렇다면, FederatedX? 뭐냐고요?

바로 이전 포스팅에서 이럴줄 알고 슬쩍 정리를 해봤습니다. ^^ 아래 링크를 쿡~!!
>> https://gywn.net/2014/12/let-me-introduce-federatedx/

자~! 그렇다면.. 데이터 이관에 대해 차근차근 단계적으로 설명하도록 하겠습니다.

Data Dump Backup
Table Creation
Data Import & Sync
Master/Slave Switching
Slave Restore

1) Data Dump Backup

첫 번째 단계입니다. 옮길 대용량 테이블은 두 개이고, 조금이라도 빠르게 데이터를 이관하기 위해서 각 테이블 별로 덤프 파일을 생성합니다. 두 개의 덤프 파일이 모두 동일한 바이너리 로그 포지션을 가져야하기 때문에, UserDB 쪽 슬레이브의 SQL_Thread를 일시적으로 중지 후 포지션을 기록합니다.

>> UserDB Slave (상단 이미지 왼쪽 아래 서버)

슬레이브 시작 시 영향도를 최소화하기 위해, 슬레이브의 SQL Thread만 중지합니다. 그리고 현재 바이너리 로그 포지션을 기록해놓습니다.

mysql> stop slave sql_thread;
Query OK, 0 rows affected(0.00 sec)
 
mysql> show master status;
+------------------+----------+
| File             | Position |
+------------------+----------+
| mysql-bin.006027 | 18752723 |
+------------------+----------+

>> ContentsDB Slave (상단 이미지 오른쪽 아래 서버)

UserDB 슬레이브 장비에 3306으로 붙어서 직접 데이터를 받아옵니다. 사실 UserDB에서 로컬로 데이터를 내릴 수 있겠지만, 파일로 전송하는 단계를 생략하기 위함입니다.

$ mysqldump -udumpuser -pdumppass \
  --single-transaction --no-create-info \
  --add-locks=false -h user-slave \
  --databases user_db --tables open_log \
  > /backup/open_log.sql &

$ mysqldump -udumpuser -pdumppass \
  --single-transaction --no-create-info \
  --add-locks=false -h user-slave \
  --databases user_db --tables download_log \
  > /backup/download_log.sql &

아참, 덤프하기 전에 dumpuser를 사전에 생성을 해놔야한다는 사실을 잊으면 안되겠죠. ^^

>> UserDB Slave (상단 이미지 왼쪽 아래 서버)

자~ 이제 덤프가 시작되었으니.. UserDB 쪽 슬레이브를 재계합니다.

mysql> start slave sql_thread;
Query OK, 0 rows affected(0.00 sec)

2) Table Creation

FederatedX는 원격의 테이블을 연결시켜주는 실체가 없는 브릿지 역할을 합니다. 즉, “원격 테이블”과 “형상 테이블” 모두 생성을 해줘야하는 것이죠.테이블 스키마 생성 작업은 모~두 서비스와는 전혀 연관이 없는 ContentsDB 슬레이브(상단 이미지 오른쪽 하단)에서 이루어집니다.

>> 원격 테이블 – 3306포트

먼저, 원격 테이블을 생성합니다. 추후 효과적인 데이터 관리를 위해 파티셔닝 설정도 이 기회에 같이 합니다. ㅎㅎ

CREATE TABLE download_log (
  id bigint(20) unsigned NOT NULL AUTO_INCREMENT,
  user_id int(11) unsigned NOT NULL,
  pid bigint(20) unsigned NOT NULL DEFAULT '0',
  sid bigint(20) NOT NULL DEFAULT '0',
  download_dt datetime NOT NULL,
  val1 varchar(45) NOT NULL DEFAULT '',
  val2 varchar(45) NOT NULL DEFAULT '',
  PRIMARY KEY (id, download_dt),
  KEY ix_userid (user_id, download_dt)
) ENGINE=TokuDB AUTO_INCREMENT=400000000
/*!50500 PARTITION BY RANGE COLUMNS(download_dt)
(PARTITION PF_201306 VALUES LESS THAN ('2013-07-01'),
 PARTITION PF_201312 VALUES LESS THAN ('2014-01-01'),
 PARTITION PF_201406 VALUES LESS THAN ('2014-07-01'),
 PARTITION PF_201412 VALUES LESS THAN ('2015-01-01')) */;

CREATE TABLE open_log (
  id bigint(20) unsigned NOT NULL AUTO_INCREMENT,
  user_id int(11) unsigned NOT NULL,
  pid bigint(20) unsigned NOT NULL,
  sid bigint(20) NOT NULL DEFAULT '0',
  product_type char(4) NOT NULL DEFAULT '',
  open_dt datetime NOT NULL,
  PRIMARY KEY (id, open_dt),
  KEY ix_userid_productid (user_id, open_dt)
) ENGINE=TokuDB AUTO_INCREMENT=600000000
/*!50500 PARTITION BY RANGE COLUMNS(open_dt)
(PARTITION PF_201306 VALUES LESS THAN ('2013-07-01'),
 PARTITION PF_201312 VALUES LESS THAN ('2014-01-01'),
 PARTITION PF_201406 VALUES LESS THAN ('2014-07-01'),
 PARTITION PF_201412 VALUES LESS THAN ('2015-01-01')) */;

>> 형상 테이블(FederatedX) – 13306포트

UserDB로부터 받아온 데이터를 ContentsDB로 전달하는 FederatedX 테이블 스키마입니다. 원본 서버와는 완벽하게 같을 필요는 없으나, 만약 바이너리 로그가 SQL기반으로 기록된다면, 관련 인덱스를 어느정도 맞춰놓는 것이 좋습니다. 여기서는 생략~!

CREATE TABLE download_log (
  id bigint(20) unsigned NOT NULL AUTO_INCREMENT,
  user_id int(11) unsigned NOT NULL,
  pid bigint(20) unsigned NOT NULL DEFAULT '0',
  sid bigint(20) NOT NULL DEFAULT '0',
  download_dt datetime NOT NULL,
  val1 varchar(45) NOT NULL DEFAULT '',
  val2 varchar(45) NOT NULL DEFAULT '',
  PRIMARY KEY (id)
) ENGINE = FEDERATED connection='mysql://feduser:fedpass@127.0.0.1:3306/contents_db/download_log';
 
CREATE TABLE open_log (
  id bigint(20) unsigned NOT NULL AUTO_INCREMENT,
  user_id int(11) unsigned NOT NULL,
  pid bigint(20) unsigned NOT NULL,
  sid bigint(20) NOT NULL DEFAULT '0',
  product_type char(4) NOT NULL DEFAULT '',
  open_dt datetime NOT NULL,
  PRIMARY KEY (id)
) ENGINE = FEDERATED connection='mysql://feduser:fedpass@127.0.0.1:3306/contents_db/open_log';

아참~! 3306 포트로 올라와있는 서버에는 feduser/fedpass로 생성된 유저가 있어야 합니다. 슬레이브가 READ_ONLY일테니 SUPER권한과 함께.. (슬레이브 READ_ONLY를 풀 수도 있겠지만.. 이보다는 전용 DB 접속 유저에 권한을 주는 것이 더 좋을 듯 하네요. ^^)

지금까지 단계가 완료되면, ContentsDB에는 다음과 같이 서버가 구성이 되어 있겠네요.

3) Data Import & Sync

옮겨야할 데이터도 있고 옮길 그릇도 있으니, 이제 실제 데이터 이관 작업 후 데이터 동기화를 하는 작업만 남았겠네요. ^^

mysql -ufeduser -pfedpass contents_db < /backup/open_log.sql &
mysql -ufeduser -pfedpass contents_db < /backup/download_log.sql &

시간이 꽤 걸리는 이 작업이 완료가 되면, 이제 FederatedX가 떠있는 DB에 접속하여 슬레이브 구성을 합니다.

## replicate_do_table 설정
mysql> set global replicate_do_table = 'user_db.download_log,user_db.open_log ';
 
## 슬레이브 설정
mysql> CHANGE MASTER TO
MASTER_HOST='use-slave',
MASTER_PORT= 3306,
MASTER_USER='repl',
MASTER_PASSWORD='xxxxxx',
MASTER_LOG_FILE='mysql-bin.006027',
MASTER_LOG_POS=18752723;
 
## 슬레이브 시작
start slave;

이 과정까지 되면, 제일 처음 표현했던 이미지대로 데이터가 흐르게 됩니다.

4) Master/Slave Switching

가장 트래픽이 적은 시점에 ContentsDB 쪽 마스터/슬레이브 장비를 스위칭합니다.

MHA같은 솔루션을 사용하고 있다면, 더욱 쉽게 마스터/슬레이브 스위칭이 이루어질 것이고, 스위칭 직후에는 아래와 같은 형태로 데이터가 흐르게 되겠죠. 아참, 스위칭 전에 반드시 다음 단계에서 진행할 슬레이브 복구를 위해, 백업을 해주는 것이 좋겠네요.

당연한 이야기겠지만, 로그 테이블들이 신규 슬레이브(구 마스터)에는 없기 때문에 ContentsDB 쪽 마스터/슬레이브는 끊어지겠죠.

5) Slave Restore

스위칭 직전 백업 데이터로, 끊어진 슬레이브를 연결합니다. 그리고, 어플리케이션에서 UserDB에 위치한 로그 테이블을 더이상 참조하지 않는 시점에 로그 테이블을 제거하도록 합니다. 이 시점에서는 더이상 FederatedX 테이블도 필요 없기 때문에, 13306포트로 구동 중인 DB서버를 셧다운하도록 합니다.

최종적으로는 대형 로그 테이블이 타 DB로 이관이된 아래와 같은 모습이 됩니다. (휴~! 끝)

마스터/슬레이브 스위칭 시 순단 현상은 있었겠지만, 적어도 9억 데이터를 이관하는 동안 어떠한 영향도 없었습니다.

Result

InnoDB를 TokuDB로 이관을 하면서 디스크 사용률이 30% 이하로 줄었습니다. TokuDB에 대한 설명은 굳이 여기에서 하지 않아도 될 것 같네요. ^^ 만약 궁금하시다면, 아래 포스팅 내용을 참고하세요.
https://gywn.net/2014/05/fractal-index-in-tokudb/

이관 후 데이터 사이즈는 다음과 같습니다.

download_log
– 76G -> 21G
open_log
– 96G -> 23G

파티셔닝 구조로 변경하면서, 데이터 보관 주기에 정책에 따라 유연하게 데이터를 유지할 수 있게 되었습니다.

참고로, FederatedX에서 슬레이브를 연결한 직후 동기화 되는 최대 속도는 다음과 같습니다. TokuDB Small 포멧임에도 단일 쓰레드로 3000 query 이상을 발휘합니다.

| Com_insert     | 3268    |
| Com_insert     | 3255    |
| Com_insert     | 3223    |
| Com_insert     | 3200    |
| Com_insert     | 3233    |

Conclusion

지금까지 FederatedX를 사용하여 9억건 데이터를 타 DB로 이관한 사례를 정리하였습니다.

물론, 굳이 이 방법이 아니라고 하더라도 대형 테이블을 타 DB로 이관할 수 있는 방법은 있겠죠. Tungsten Replicator와 같은 솔루션을 활용하거나, 혹은 개발 부서의 적극적인 지원을 받거나..^^

잘 활용되지 않는 FederatedX 엔진이라고 할 지라도, 이러한 용도로 활용을 한다면 꽤 난감한 상황(이를테면 DB 혹은 테이블 명이 변경되는)에서도 유연하게 대처할 수 있겠습니다. 때마침 좋은 사례가 있어서 공유 드립니다.

간만의 포스팅이라 내용이 매끄럽지 않네요. 게다가 하나하나 모두 설명하기에는 무리가 있어서.. 많은 부분을 생략하기도 했고요. ㅠㅠ 기회가 된다면, 이에 대해 조금 더 자세하게 정리할 수 있는 자리가 있으면 좋겠습니다.ㅎㅎ

MariaDB의 FederatedX를 소개합니다.

Posted on 2014-12-05 | by gywndi | 1 Comment

Overview

MySQL에는 Federated라는 스토리지 엔진이 있는데, 이는 원격의 테이블에 접근하여 제어하기 위한 용도로 사용됩니다. 얼마 전 이 엔진과 관련하여 재미있는 테스트를 하였는데, 이 내용을 소개하기에 앞서서 간단하게 정리해보도록 하겠습니다.

Features

FederatedX는 사실 MariaDB에서 Federated 엔진을 의미하는데, 이를 다른 이름으로 구분하는 것은 사실 더욱 확장된 기능을 가지기 때문입니다.

원격 서버 접근
원격에 있는 테이블을 로컬에 있는 것처럼 사용
트랜잭션
2-Phase Commit 형태로 데이터의 일관성을 유지
파티셔닝
각 파티셔닝 별로 다른 원격 테이블 참조 가능

Usage

FederatedX 스토리지 엔진은 MariaDB에서는 기본적으로는 활성화되어 있습니다. MySQL에서는 별도의 옵션을 줘야만 활성화되는 것과는 다른 측면이죠.

테이블 생성 방법은 URL/아이디/패스워드를 모두 지정하여 생성하는 방법과, SERVER를 추가해서 사용하는 방법 두 가지가 있습니다.

1) Server 정보를 통한 테이블

CREATE SERVER 구문으로 원격 테이블 접속에 대한 설정을 등록하는 방식입니다. FederatedX 테이블을 사용하기에 앞서서 서버 정보를 등록합니다.

CREATE SERVER 'remote' FOREIGN DATA WRAPPER 'mysql' OPTIONS
(HOST 'remote',
 DATABASE 'target_db',
 USER 'appuser',
 PASSWORD 'passwd123',
 PORT 3306,
 SOCKET '',
 OWNER 'appuser');

위에서 등록한 서버 정보를 활용하여 FederatedX 테이블을 생성합니다.

CREATE TABLE `tb_remote` (
`col01` bigint(20) NOT NULL,
`col02` bigint(20) NOT NULL,
`col03` varchar(20) NOT NULL DEFAULT '',
PRIMARY KEY (`col01`)
) ENGINE=FEDERATED
CONNECTION='remote';

2) URL을 통한 테이블 생성

반드시 위와 같이 서버를 등록하고 FederatedX 테이블을 생성할 필요는 없습니다. 별다른 메타 정보 없이 직접 원격의 서버에 Connection 정보를 명시적으로 선언을 하여 FederatedX 테이블을 생성할 수 있습니다.

CREATE TABLE `tb_local` (
`col01` bigint(20) NOT NULL,
`col02` bigint(20) NOT NULL,
`col03` varchar(20) NOT NULL DEFAULT '',
PRIMARY KEY (`col01`)
) ENGINE=FEDERATED
connection='mysql://target_db:passwd123@remote:3306/target_db/tb_remote';

Connection은 “mysql://사용자:패스워드@호스트:포트/데이터베이스/테이블” 형태로 주면 되겠죠? ^^

3) 파티셔닝 테이블 구성

생성하는 방법을 알았으니, 이제 실제로 테이브을 생성해보도록 해보아요.

각 파티션 별로 직접 커넥션 정보를 명시하여 접근할 수 있겠지만.. 여기서는 서버를 등록하는 방식으로 예를 들도록 할께요.

먼저 서버 정보를 등록합니다.

CREATE SERVER 'remote1' FOREIGN DATA WRAPPER 'mysql' OPTIONS
(HOST 'remote1', 
 DATABASE 'target_db',
 USER 'appuser',
 PASSWORD 'passwd123',
 PORT 3306,
 SOCKET '',
 OWNER 'appuser');

CREATE SERVER 'remote2' FOREIGN DATA WRAPPER 'mysql' OPTIONS
(HOST 'remote2',
 DATABASE 'target_db',
 USER 'appuser',
 PASSWORD 'passwd123',
 PORT 3306,
 SOCKET '',
 OWNER 'appuser');

CREATE SERVER 'remote3' FOREIGN DATA WRAPPER 'mysql' OPTIONS
(HOST 'remote3',
 DATABASE 'target_db',
 USER 'appuser',
 PASSWORD 'passwd123',
 PORT 3306,
 SOCKET '',
 OWNER 'appuser');

그리고, 타 스토리지 엔진의 파티셔닝 테이블을 생성하는 형태로 테이블을 생성합니다.

CREATE TABLE `tb_remote` (
`col01` bigint(20) NOT NULL,
`col02` bigint(20) NOT NULL,
`col03` varchar(20) NOT NULL DEFAULT '',
PRIMARY KEY (`col01`)
) ENGINE=FEDERATED
PARTITION BY RANGE (col01)
(PARTITION p1000 VALUES LESS THAN (1001) CONNECTION='remote1',
 PARTITION p2000 VALUES LESS THAN (2001) CONNECTION='remote2',
 PARTITION p3000 VALUES LESS THAN (3001) CONNECTION='remote3');

아, 여기서 추가로 각 파티셔닝 정의에 Connection 정보, 여기서는 서버 정보를 같이 명시하여 테이블을 생성하면.. FederatedX를 통한 파티셔닝 테이블 완성~! 참 쉽죠잉??

Caution?!!!!

얼뜻, 보면 굉장해 보이는 기능입니다. FederatedX를 사용하면, 원격의 다수의 테이블에 접근을 할 수 있는 형태가 되기 때문, 굉장한 트래픽을 분산 형태로 처리할 수 있다는 기대감을 강력하게 뿜어냅니다. 자, 그럼 서비스에서 사용할 수 있을까요?? 제 대답은 강력한 “NO”입니다. 왜그러나고요?

자 간단하게 아래와 같이 LIMIT구문으로 한 건만 가져오는 쿼리를 실행한다고 한다면.. 특히, 개발 툴에서 누구나 쉽게 아래와 같이 쿼리를 질의를 하겠죠.

select * from tb_remote limit 1;

문제는, 모든 인덱스에 대한 실질적인 정보는 원격에 테이블에 있다는 점에 있습니다. FederatedX는 단지 어떤 식으로 테이블이 구성되어 있다는 대략적인 스키마 정도만 알고 있을 뿐, 결코 원격의 테이블에 있는 데이터 분포도 혹은 핸들러와 같은 오브젝트에 접근할 수 없습니다.

Federated Explain

Federated 경우 데이터가 물리적으로 엄격히 다른 타 서버에 존재하기 때문에, 데이터 처리 시 필요한 모든 데이터를 네트워크로 받아와야 합니다. 즉, 잘못하면 네트워크 대역폭을 한방(?)에 가득 채울 수도 있고, 쿼리 처리 또한 굉장히 버벅댈 수 밖에 없습니다.

Conclusion

지금까지 MariaDB의 Federated 엔진에 대해서 간단하게 살펴보았습니다.

위에서는 주의사항만 말해놓았지만, 사실 분포도가 아주 좋은 인덱스(예를 들면 Primary Key)를 통한 데이터 접근 시에는 전혀 문제가 되지 않습니다. 그렇지만, 모든 상황에서 인덱스를 고집할 수 있는 상황이기 때문에, 서비스에서 조회 용도로 사용하기에는 대단히 위험합니다.

만약 피치못할 사정에 활용을 해야한다면, 이 테이블을 통한 데이터 접근은 반드시 엄격하게 제어를 하여 사용하시기 바랍니다.