본문 바로가기

IT STORY

방대한양의 정보바다에서 옥석을 가리는 빅데이터

728x90
SMALL

빅데이터 기본 개념 이해하기

IT 정보화가 급속도로 빨라지고, 자율주행이다 인공지능하다 하여 점점 IT정보량이 기하급수적으로 늘어나고 있는 시대이다. 은행, 관공서부터 시작해서 주변에 둘러보면 대용량의 정보 데이터를 사용하는 곳이 늘어나고 있다. 이곳에서 유용한 정보들은 무엇일까 찾으려면 많은 노력들이 필요하다. 어떻게 활용하면 되는지부터 살펴보려고 한다. 4차 산업혁명이 일어나는 지금 시점에서 빅데이터 관심은 점점 늘어나고 빅데이터 분석 전문가들이 필요한 시기이기도 하다. 빅데이터는 현재 많은 분야에서 활용되고 있습니다. 이데 따라 빅데이터에 대한 이해가 필수적입니다. 

 

빅데이터란?

빅데이터는 기존의 프레임워크에서 처리할 수 없을 만큼 대용량의 데이터를 의미합니다. 대표적으로 소셜 미디어, 인터넷 검색 기록, 통화 기록 등이 있습니다. 이제는 이러한 데이터를 활용하여 통계적 분석과 머신 러닝 기술을 이용해 가치를 창출하는 것이 매우 중요해졌습니다. 빅데이터는 기존 데이터베이스 소프트웨어에서 처리할 수 없는 대량의 다양한 데이터를 의미합니다. 이러한 데이터는 기업, 정부, 학문, 연구나 사회 전반에 걸쳐 활용될 수 있습니다. 빅데이터는 대규모의 데이터를 신속하게 붆석하고 활용할 수 있는 기술과 방법을 제공합니다. 빅데이터의 주요 특징은 3V입니다. Volume(수용량), Variety(다양성), Velocity(속도)입니다.

첫 번째로 수용량 측면에서 빅데이터는 일반 데이터베이스 소프트웨어에서 처리하기 어려운 대용량을 다룰 수 있습니다. 

두 번째로 다양성 측면에서 빅데이터는 구조화되지 않은 데이터나 비정형 데이터를 포함하는 다양한 종류의 데이터를 다룰 수 있습니다. 

세 번째로 속도 측면에서 빅데이터는 실시간으로 데이터를 처리하고 분석할 수 있습니다.

빅데이터는 여러 산업 분야에서 활용됩니다. 예를 들어, 마케팅 산업에서는 소셜 미디어, 검색엔진, 온라인 쇼핑몰 등의 빅데이터를 활용하여 고객 우수성 평가, 광고 추적, 키워드 분석 등을 수행합니다. 더불어, 의료분야에서는 환자정보, 의료 기록, 유전자 정보, 실시간 건강 상태 모니터링 등을 분석하여 예방, 진단, 치료, 그리고 약물 개발 등의 활용 분야가 확대되고 있습니다. 빅데이터는 또한 방대한 양의 데이터를 다루는 빅데이터 분석 기술과 도구가 개발되고 있습니다. 예를 들어 Hadoop, MongoDB, Spark 등의 빅데이터 분석 소프트웨어들이 많이 사용되고 있습니다. 빅데이터는 다양한 데이터 소스 및 분석 기술에 대한 이해와 함께, 모델링, 예측분석 등의 높은 기술과 높은 수준의 비즈니스 인텔리전스를 제공합니다. 이를 통해 기업은 생산성, 효율성, 이익 증대 및 소비자 경험 개선 등의 이점을 누릴 수 있습니다.

 

빅데이터 분석시스템

빅데이터 분석에는 여러 도구가 사용됩니다. 주요 빅데이터 분석 도구는 다음과 같습니다.

♧ 하둡(Hadoop) 

대용량 데이터 처리에 필요한 분산 시스템입니다. 분산 파일 시스템인 HDFS와 분산 처리를 위한 MapReduce, YARN 등의 프레임워크를 제공합니다. 하둡(Hadoop)은 대용량 데이터를 저장하고 분석하기 위한 자바 기반의 오픈소스 프레임워크입니다. 하둡은 수천 대의 컴퓨터에서 대규모 데이터를 처리하고 분석하는 데 사용됩니다. 이러한 대용량 데이터를 처리하기 위해서 하둡은 분산 파일시스템인 HDFS(Hadoop Distributed File System)와 분산 데이터 처리 프레임워크인 MapReduce)를 사용합니다. HDFS는 대용량 파일을 여러 노드에 분산하여 저장하고 처리할 수 있도록 해줍니다. 이를 통해 단일 노드에서 처리할 수 없는 대규모 파일을 처리할 수 있습니다. 또한, 데이터의 안정성을 보장하기 위해 복제본을 유지하며, 명령형으로 분산된 노드에 더 데이터를 쓰거나 읽을 수 있습니다.

MapReduce는 맵 함수와 리듀스 함수를 이용하여 대규모 데이터셋을 분석합니다. 

♣ 스파크(Spark) : 하둡보다 더 빠르고 효율적인 대용량 데이터 처리 엔진입니다. 기본적으로 메모리 기반의 처리를 지원하여 속도측면에서 우수합니다. 스파크(spark)는 Apache Spark라고도 불리는 오픈 소스 분산 컴퓨팅시스템으로, 빅데이터 처리를 위한 데이터 처리엔진입니다. 스파크는 대용량 데이터를 분석하고 처리하기 위한 고성능 다양한 기능을 제공합니다. 스파크의 가장 큰 장점 중 하나는 그 처리 속도인데, 기존의 Hadoop과 비교하여 더욱 빠르게 데이터 처리가 가능합니다. 이는 스파크가 메모리 기반으로 실행되기 때문입니다. 스파크는 대부분의 운영 체제에서 동작이 가능하며, 다양한 언어로도 사용할 수 있습니다. 스파크를 사용하면 머신러닝, 그래프 처리, 스프링 처리 등 다양한 분야에서 활용이 가능합니다.

♣ 야후의 Hadoop 기반 분산 데이터 처리 시스템(YARN) : 야후에서는 Hadoop 기반 분산 데이터 처리시스템인 Apache Hadoop을 사용하고 있습니다. 이를 이용해 야후 메일, 뉴스, 스포츠 등의 서비스를 제공하고 있습니다. Apache Hadoop은 대용량 데이터 처리를 위해 설계된 오픈 소스 프레임워크로, 분산 파일 시스템인 HDFS(Hadop Distributed File System)과 분산 처리 시스템인 Mapreduce를 사용합니다. HDFS는 대형 파일을 여러 노드에 분산 저장하여 데이터의 안정성과 가용성을 보장하고, MapReduce는 분산환경에서 데이터 처리를 위한 프로그래밍 모델입니다. 야후에서는 이 Hadoop 기반 분산 데이처 시스템을 이용해 대규모 데이터를 처리하고 있습니다. 이에 따라 향후는 빅데이터 분석, 광고 타깃팅, 추천 알고리즘 개발 등 다양한 분야에서 활용하고 있습니다.

♣ 하이브(Hive) 는 Hadoop 기반 분산 데이터 처리 시스템에서 데이터를 쉽고 빠르게 처리하기 위한 데이터 웨어하우스 설루션입니다. 하이브는 SQL을 사용하여 데이터를 처리할 수 있게 해주는 데이터 웨어하우스 도구 중 하나입니다. 하이브는 Hadoop을 기반으로 하여 데이터를 처리하므로 대용량의 데이터도 처리가 가능합니다. 하이브의 특징 중 하나는 단순한 SQL 쿼리를 사용하여 데이터를 처리할 수 있다는 것입니다. 또한 다른 데이터 웨어하우스 도구와 달리 데이터 처리를 위한 코딩이 필요하지 않으며, 데이터 처리를 위해 생성된 맵리듀스 코드를 사용하여 최적의 성능을 보입니다. 이러한 특징 덕분에 하이브는 데이터 분석, 보고서 생성, 데이터 마이닝, 기타 여러 데이터 처리 작업이 많이 사용됩니다. 하이브는 하둡 클러스터의 데이터를 직접 읽어와서 처리하기 때문에, 데이터의 크기와 복잡도, 분산 환경에서 수행해야 하는 작업 등 다양한 요구 사항에 대처할 수 있습니다. 따라서 고성능 이미지 검색, 사용자 분류, 클릭 분석, 사용자 이력 등 다양한 형태의 비즈니스 문제를 해결할 수 있다.

♣빅데이터 분석도구 R : R은  통계 계산 및 데이터 분석에 사용되는 오픈 소스 분석 도구이며, 빅데이터 분석에도 많이 사용됩니다. R은 빅데이터 처리와 분석에 필요한 다양한 패키지를 제공하기 때문에 매우 유용한 도구입니다. R은 무료로 사용할 수 있으며, 사용자들이 패키지를 만들어 공유할 수 있기 때문에 지속적으로 발전하고 있습니다. R의 가장 큰 특징은 다양한 통계 계산과 그래프 그리기를 위한 다양한 함수를 제공한다는것입니다. R은 대용량의 데이터를 빠르게 처리할 수 있으며, 데이터 조작 및 변환, 모델링, 분석, 예측 등 다양한 작업을 수행할 수 있습니다. 또한 빅데이터 분석에 최적화된 R 패키지인 'dplyr'와 'data.table' 등의 패키지를 제공하여 빅데이터를 효율적으로 처리할 할 수 있습니다. R은 빅데이터 분석 분야에서 가장 널리 사용되는 도구 중 하나이며, 대용량 데이터를 다루기 위한 분산 처리 프레임워크인 Hadop, Spark 등과도 연동하여 사용할 수 있습니다. 따라서 R은 빅데이터 분석에 있어서 필수적인 도구 중 하나입니다. 

♣ 프리디킹(Fredhopper)은 빅데이터 분석 도구입니다. 아마존, 아디다스, 스포티나 등의 대기업들이 이를 사용하여 고객 정보를 분석하고, 상품 추천 및 개인화 서비스를 제공합니다. 프리디킹은 대량 데이터를 처리하고, 분석 결과를 실시간으로 제공하는 기능을 가지고 있으며, 시스템의 안정성과 멀티채널 지원, 그리고 비즈니스 인텔리전스(BI) 분석 등 다양한 활용이 가능합니다. 또한, 프리디킹은 상품 추천 기능이 강점으로, 추천 모델링과 알고리즘 기반으로 개인의 취향과 구매 이력을 분석하여 맞춤형 상품추천을 제공합니다. 이는 고객들에게 더 나은 쇼핑 경험을 제공하고, 기업들에게는 고객 유치의 매출 증대의 효과를 가져옵니다.

♣ 빅데이터 분석 도구 자바(Java)는 단순한 데이터 처리뿐만 아니라 큰 규모의 데이터 처리도 가능하며, 다양한 운영체제에서 동작하기 때문에 대규모 기업에서도 널리 사용됩니다.  

자바는 빅데이터 처리를 위한 다양한 라이브러리와 API를 제공합니다. 가장 대표적인 예는 Apache Hadoop과 Apache Spark입니다. Hadoop은 대규모 데이터를 분석처리해서 처리할 수 있는 플랫폼으로, 분산파일시스템(HDFS)을 기반으로 하여 대용량 데이터 처리를 지원하는 MapReduce 모델을 사용합니다. Spark는 Hadoop보다 더 빠른 분산처리를 제공하며, 메모리 상에서 데이터처리를 수행하여 처리 속도를 향상시킵니다. 또한, 자바에서는 데이터베이스 연결 및 데이터 처리를 위해 JDBC와 JPA 등의 API를 제공합니다. JDBC는 자바를 사용하여 데이터베이스를 연결화고 SQL 구문을 실행할 수 있는 API입니다. JPA는 자바르 객체를 데이터베이스의 테이블과 매핑하는 기능을 제공하여 객체를 직접 다루면서 데이터베이스 작업을 처리할 수 있게 해 줍니다. 자바를 사용하면 대규모 데이터를 효율적으로 처리할 수 있으며, 다양한 빅데이터 처리 도구와 라이브러리를 활용할 수 있어서 데이터 분석 작업을 효과적으로 수행할 수 있습니다.

 

728x90
LIST