본문 바로가기
Data Migration 개요

데이터 마이그레이션 (Data Migration) 데이터 조사 (As-is)

by save-time 2024. 8. 6.

데이터 마이그레이션 과정에서 데이터 조사는 중요한 단계로, 이를 통해 기존 데이터의 구조와 품질을 파악하고, 성공적인 마이그레이션을 위한 기초를 마련합니다. 데이터 조사 방법은 다음과 같은 주요 활동으로 구성됩니다:



1. 데이터 구조 분석


데이터베이스 스키마 분석


테이블 및 컬럼 분석: 기존 데이터베이스의 테이블과 컬럼을 분석하여 데이터의 구조를 이해합니다. 각 테이블의 목적, 컬럼의 데이터 유형, 제약 조건 등을 파악합니다.


키와 인덱스 분석: 기본 키(primary key), 외래 키(foreign key), 인덱스(index)의 정의를 확인하여 데이터 간의 관계와 접근 방법을 이해합니다.


관계 분석


ERD(엔터티 관계 다이어그램) 작성: 테이블 간의 관계를 시각화한 ERD를 작성하여 데이터베이스의 구조를 명확히 합니다. 이를 통해 데이터 마이그레이션 중 데이터 일관성을 유지할 수 있습니다.

 

참조 무결성 분석: 외래 키 제약 조건을 분석하여 데이터 간의 참조 무결성을 이해하고, 이를 마이그레이션 과정에서 유지할 수 있도록 합니다.


2. 데이터 품질 평가


데이터 정확성


데이터 일관성 검사: 같은 데이터가 여러 테이블에 존재할 때, 데이터의 일관성을 확인합니다. 예를 들어, 고객 ID가 여러 테이블에서 동일하게 사용되고 있는지 검사합니다.


값 범위 및 형식 검사: 각 컬럼의 값이 예상 범위 내에 있는지, 데이터 형식이 올바른지 확인합니다. 예를 들어, 날짜 형식, 숫자 범위, 텍스트 길이 등을 검사합니다.


데이터 완전성


누락 데이터 검사: 필수 필드에 누락된 데이터가 없는지 확인합니다. 누락 데이터가 발견되면, 이를 보완할 방법을 모색합니다.


중복 데이터 검사: 중복된 데이터가 존재하는지 확인합니다. 중복 데이터를 제거하거나 병합하여 데이터의 품질을 향상시킵니다.


데이터 유효성


비즈니스 규칙 준수 검사: 데이터가 비즈니스 규칙을 준수하는지 확인합니다. 예를 들어, 나이 필드는 0보다 큰 값이어야 하고, 이메일 필드는 특정 형식을 가져야 합니다.


데이터 정확성 검증: 데이터가 현실 세계의 정보를 정확하게 반영하고 있는지 검증합니다. 예를 들어, 고객의 주소가 실제 존재하는 주소인지 확인합니다.


3. 데이터 볼륨 및 성능 분석


데이터 볼륨 평가


데이터 양 측정: 각 테이블의 데이터 양을 측정합니다. 이를 통해 데이터 마이그레이션 과정에서 필요한 시간과 리소스를 예측할 수 있습니다.


데이터 성장률 분석: 데이터의 역사적 성장률을 분석하여 미래 데이터 증가를 예측하고, 새로운 시스템의 확장성을 계획합니다.


성능 분석


쿼리 성능 평가: 현재 데이터베이스에서 사용되는 주요 쿼리의 성능을 분석하여, 새로운 시스템에서의 성능 최적화 방안을 모색합니다.


인덱스 및 쿼리 최적화: 데이터 마이그레이션 후 성능을 유지하거나 향상시키기 위해 필요한 인덱스와 쿼리 최적화 방안을 수립합니다.


4. 도구 및 기법 활용


데이터 프로파일링 도구


프로파일링 도구 사용: 데이터 프로파일링 도구를 사용하여 데이터의 구조와 품질을 자동으로 분석합니다. 예를 들어, Talend, Informatica, Microsoft SQL Server Data Tools 등의 도구를 활용할 수 있습니다.
자동화된 리포트 생성: 프로파일링 도구를 통해 자동화된 리포트를 생성하여 데이터 품질 문제를 신속하게 식별하고 대응합니다.


샘플링 기법


데이터 샘플링: 전체 데이터를 분석하는 것이 부담될 때, 데이터 샘플링 기법을 사용하여 대표적인 데이터 샘플을 분석합니다. 이를 통해 데이터의 일반적인 패턴과 문제를 파악합니다.


통계적 분석: 샘플 데이터를 사용하여 통계적 분석을 수행하고, 데이터의 분포, 평균, 표준 편차 등을 계산하여 데이터 품질을 평가합니다.


5. 문서화 및 보고


분석 결과 문서화


분석 결과 정리: 데이터 구조 분석, 데이터 품질 평가, 성능 분석 결과를 문서화하여 마이그레이션 팀과 공유합니다.
이슈 및 개선 방안 기록: 발견된 데이터 품질 문제와 이를 해결하기 위한 개선 방안을 기록합니다.


보고서 작성


데이터 상태 보고서 작성: 데이터 조사 결과를 바탕으로 데이터 상태 보고서를 작성하여 이해 관계자에게 보고합니다. 여기에는 주요 발견 사항, 문제점, 개선 권장 사항 등이 포함됩니다.


계획 수립 지원: 조사 결과를 바탕으로 데이터 마이그레이션 계획 수립에 필요한 정보를 제공합니다.


데이터 조사는 데이터 마이그레이션의 성공 여부를 결정짓는 중요한 단계입니다. 철저하고 체계적인 조사를 통해 데이터의 구조와 품질을 명확히 이해하고, 마이그레이션 과정에서 발생할 수 있는 문제를 사전에 파악하여 대응하는 것이 중요합니다.