빅데이터란 뭘까?
주변에서 빅데이터라는 말을 들어보셨나요? 혹시 빅데이터를 못 들어보신 분들이라도 AI나 코딩이라는 말은 들어보셨을 겁니다. 그럼 이런 용어들은 왜 갑자기 많이 사용하게 되는 걸까요?
지금은 데이터 홍수 시대라고 해도 될 만큼 엄청난 데이터가 생성되고 있는데요. 이런 현상의 근간은 스마트폰에서 시작되었다고 해도 과언이 아닙니다. 이전에도 인터넷이 발달함에 따라 엄청난 양의 데이터가 발생했지만 기하급수적으로 늘어나게 된 건 스마트폰의 역할이 큽니다.
PC 기반의 데이터는 가정에 1대 정도였지만 스마트폰의 등장으로 모든 개인이 데이터를 생성하고 있고, 또 스마트폰으로 인해 SNS의 발달로 폭발적인 양의 데이터가 생성되고 있습니다.
이렇게 데이터가 폭발적으로 증가함으로 인해 빅데이터라는 용어가 생겨나게 되고, 이 빅데이터를 처리하기 위해 데이터 분석이라는 분야가 부각되었죠.
또 이들이 데이터를 처리하기 위해서 여러 가지 작업을 하게 되는데, 기존의 엑셀 정도로는 감당하기 어려워 데이터를 처리하고 분석할 수 있는 툴을 사용해야 했고, 이 툴을 다루는 언어를 쓰기 위해 코딩이라는 말이 부상하게 됩니다.
또 AI라는 말이 생겨났지만 사람들의 큰 관심을 얻지 못하고 있을 때쯤 알파고의 등장과 함께 AI가 쓸모 있다는 것을 검증했습니다. 앞에서 얘기한 빅데이터를 코딩이라는 것을 통해 AI라는 결과(알고리즘)를 결과를 만들어낸 것이죠.
그럼 AI와 관련된 내용은 나중에 조금 더 깊게 하도록 하고 오늘은 이 모든 기술의 기반인 데이터에 대해 알아보도록 하겠습니다.
데이터의 정의
과거에는 대부분의 데이터를 기업에서 소유하고 관리하기 쉬운 형태로 보관하고 있었습니다. 하지만 앞서 말한 바와 같이 스마트폰의 등장과 SNS의 발달로 인해 다양한 데이터가 발생되었는데요.
예전에는 이런 데이터를 사용할 수 없는 데이터라 생각해 기업에서 수집하지 않았지만 지금은 컴퓨터 기술의 발달 등으로 인해 활용이 가능해지게 됩니다.
이에 따라 데이터에 대한 정의가 필요했는데요. 크게 3가지 형태로 데이터를 분류하고 있으며, 정형, 반정형, 비정형 데이터로 부릅니다.
정형 데이터
먼저 정형 데이터의 경우는 전통적으로 수집하고 관리했던 데이터를 의미한다고 생각하면 됩니다. 기업에서 중요한 정보라고 생각한 것들에 대해 목록화한 것이죠.
엑셀과 같은 데이터라고 생각하면 쉬운데요. 예를 들어 사람의 나이, 성별, 직업, 연봉이 중요한 정보라고 판단한다면 이를 고정시켜 둡니다. 그러면 우리는 데이터를 수집할 때 나이, 성별, 직업, 연봉이라는 칸을 만들고 각 사람마다 해당 정보만 수집하게 되죠.
이와 같이 정형 데이터의 경우 장단점이 분명합니다. 오랫동안 사용한 데이터의 형태로 엄청난 장점이 있습니다. 다른 2가지 데이터에 비해 누구든지 쉽게 이해할 수 있습니다. 또한 데이터를 쉽게 파악할 수 있으며, 연산 또한 쉽게 가능합니다.
만약 우리 고객의 평균 연령을 알고 싶다면 잘 구분되어 있는 나이에 입력된 값들을 더해서 고객 수로 나누면 쉽게 평균연령을 알 수 있습니다. 엑셀을 예로 들자면 나이로 구분된 한 행이나 열의 값을 지정해서 AVERAGE(셀범위)를 통해 쉽게 구할 수 있죠.
반대로 단점은 텍스트로 된 자료나 이미지 등의 정보는 정형화된 데이터 형태에 저장하기 어렵다는 점이 있습니다. 이런 부분을 보완하기 위해 반정형 데이터와 비정형 데이터의 저장 및 활용 방법들이 최근에 부각되고 있는 것이죠.
반정형 데이터
반정형 데이터는 고정된 형식은 없지만 일정 수준의 조직 수준을 포함하는 데이터를 말합니다. 이런 데이터 유형으로는 태그, 메타데이터 또는 기타 유형의 구조화된 정보와 같은 요소가 있을 수 있으나 정형 데이터만큼 엄격하게 정의되지는 않습니다.
반정형 데이터를 예시로는 JSON, XML, HTML문서, 로그파일, 이메일 등이 있습니다. 고정된 행, 열의 집합으로 구성된 정형 데이터와 달리 반정형 데이터는 원하는 수의 행이나 열을 넣을 수 있고, 이런 데이터는 다른 개체들과 동일한 데이터 유형이 아닐 수도 있습니다.
따라서 반정형 데이터의 경우 데이터의 유연성은 높아지지만 기존의 데이터베이스 관리 도구를 사용해 쿼리를 작성하거나 분석하는 것은 더욱 어려워집니다.
비정형 데이터
비정형 데이터는 미리 정의된 데이터 형태가 없는 유형입니다. 일반적으로 구성되지 않고 특정 데이터 구조 등을 자르지 않습니다. 비정형 데이터 예로는 텍스트 문서, 이미지, 오디오, 비디오 파일, 소셜 미디어 게시물, 센서 데이터 등이 있습니다.
비정형 데이터의 경우는 데이터 처리나 분석을 위해 기존의 데이터 관리 툴이나 분석 툴의 사용이 불가능한 경우가 많습니다. 따라서 비정형 데이터를 처리 및 분석을 위한 전문 소프트웨어 및 기술이 필요합니다.
비정형 데이터는 앞서 얘기한 것과 같이 특정 데이터를 추출할 수 있는 구조가 정해져 있지 않기 때문에 데이터에서 정보를 검색하고 추출하는 것이 어렵습니다. 따라서 비정형 데이터를 추출하고 분석하는 것에 대한 난이도는 가장 높습니다.
실무자의 어려움
데이터를 적재하고, 추출하고, 분석하고 결과를 생성하는 것에 대한 어려움은 당연하겠지만, 업무를 진행하다 보면 그 외에 어려움이 더 많이 존재한다는 걸 느끼실 겁니다.
네이버나 카카오 같은 IT 기업의 경우에는 관리자가 실무에 대한 어느 정도 지식을 갖추고 있어 조금 다를 수 있겠지만, 일반적인 기업에서는 관리자들이 이런 부분을 이해하지 못해 실무자들의 어려움이 많은데요.
기존의 정형 데이터에서 분석을 통해 인사이트를 추출하고 결과를 생성하는데 소요되는 시간의 틀에서 벗어나지 못해 반정형 또는 비정형 데이터를 분석해서 결과를 도출하기 위해 데이터를 활용할 수 있도록 작업하는데 엄청난 시간이 소요되는 것을 이해하지 못하기 때문입니다.
반정형이나 비정형 데이터의 경우 기존에 쌓여있는 정형 데이터와 같이 활용하기 위한 형태로 데이터를 만들어두는 것만으로도 얼마나 많은 시간이 소요되는지 말입니다.
또한 정형 데이터에서 정의된 항목들이 오랜 시간 노하우를 거쳐 해당 항목을 수집하는 것이 정의된 것인데 반정형 비정형 데이터에서는 이 부분의 정의부터 필요합니다. 정형 데이터와 같이 특정 정보를 뽑아내기 위한 정의를 하기 위한 의사결정이 필요하다는 것을 이해하지 못하기 때문입니다.
예를 들어 사람들이 좋아하는 옷 색깔 정보를 뽑아봐라고 했다가 어떤 종류의 옷을 좋아하는지 뽑아봐라고 하면 반정형이나 비정형 데이터에서 어떤 정보를 수집할지 의사결정이 되지 않았다는 것이죠. 그러면 정형 데이터와 같이 필요한 데이터를 추출하기 위해 다시 처음부터 데이터 수집부터 해야 한다는 것과 유사한 의미입니다.
이런 부분의 어려움을 관리자들이 직접 뽑아낼 수는 없어도 이해할 수 있는 정도의 일정 수준의 지식은 갖춰야 한다고 생각합니다. 이렇지 않으면 이를 이해하지 못하는 관리자와 실무자의 마찰은 계속 일어날 수밖에 없을 것입니다.
'방구석코딩' 카테고리의 다른 글
챗GPT로 인한 관련 서비스 및 AI의 미래 (0) | 2023.02.28 |
---|---|
ChatGPT로 블로그, 유튜브 글쓰기 가능할까 (1) | 2023.02.04 |
ChatGPT는 알파고가 될 수 있을까 (0) | 2023.01.27 |
파이썬 웹 크롤링 하기 위해 먼저 알아야 할 것 (feat. 판다스) (0) | 2023.01.09 |
프로그램 코딩 꿀팁! 노트패드++ 세로 블록 지정 및 장점 (1) | 2023.01.05 |
댓글