본문 바로가기

Programming/DataBase System

Chapter1 -데이터 마이닝과 정보 검색

  • 데이터 마이닝과 정보 검색

데이터 마이닝이라는 용어는 유용한 패턴을 찾기 위해 대규모 데이터베이스를 반자동적으로 분석하는 작업을 의미한다. 인공지능에서 말하는 지식탐사(기계 학습 이라고도 한다) 혹은 통계적 분석처럼, 데이터 마이닝은 데이터로부터 규칙과 패션을 찾으려 한다. 그러나 데이터 마이닝은 주로 데이터에 저장되어진 대규모의 데이터를 다룬다는 점에서 기계학습이나 통계적 분석과는 차이가 있다. 즉, 데이터 마이닝은 "데이터베이스 상에서의 지식 탐사"를 다룬다.

    데이터베이스로부터 탐사되어진 지식들의 일부는 규칙의 집합으로 표현될 수 있다. 다음이 규칙의 예라 할 수 있다. "작은 스포츠카의 경우 연소득이 50,000불 이상 되는 젊은 여성이 가장 사기를 원한다." 물론 이와 같은 규칙은 일반적인 사실은 아니지만, 어느정도의 "지지도(support)"와 "신뢰도(confidence)"를 가진다. 다른 형태의 지식은 서로 다른 값들 간의 방정식이나 몇 가지 변수 값을 아는 경우 결과를 예측하는 기법들로 표현될 수 있다.
    유용한 여러 가지 형태의 패턴들이 존재하며, 이들 패턴들을 찾아내기 위한 다양한 기술들이 존재한다. 추후에 몇 가지 패턴의 예를 살펴보고 데이터베이스로부터 해당 패턴이 자동적으로 유도될 수 있는지를 살펴볼 것이다.

    일반적으로 데이터 마이닝을 위해서는 사람이 해주어야 하는 부분이 있는데, 알고리즈멩 적합하도록 데이터를 해당 형식으로 맞추어 주는 전처리와 유용하게 쓰일만한 것을 찾기 위한 패턴들의 후처리가 이에 해당된다. 주어진 데이터베이스로부터 탐사될 수 잇는 패턴의 형태는 하나 이상일 수 있으며, 이중 유용한 패턴을 선택하기 위해서는 사람의 관여가 필요하게 된다. 이러한 이유로 현실적인 데이터 마이닝은 반자동 작업일 수 밖에 없다. 그러나 여기서는 마이닝의 자동적인 측면에 집중해서 살펴본다.

    점차 업계에서는 기업 활동에서 발생되는 의사 결정을 위해 온라인 데이터를 활용하게 되었다. 이러한 예로는 공급 품목의 선정 작업이나 판매고 증가를 위해 어떤 고객을 대상으로 해야하는지 등의 결정이 있을 수 있다. 이와 같은 형태의 질의 대부분은 복잡한 형태를 가지기 때문에, SQL을 이용한다 해도 검색하기 힘든 형태의 정보들이 존재한다.

    의사 결정 지원을 위해 여러 기법과 도구들이 존재한다. 데이터분석을 위한 일부 도구들은 분석가가 해당 데이터를 여러 관저에서 볼 수 있게 해준다. 또 다른 분석 도구들은 질의에 대한 빠른 응답 시간을 보장하기 위해 매우 많은 양의 데이터들에 대한 요약 정보를 구해준다. SQL표준은 데이터 분석을 지원하기 위한 기반을 추가했다.

    대기업들은 기업의 의사 결정을 위해 필요한 다양한 데이터 소스들을 가지고 있다. 그러한 다양한 데이터를 기반으로 효율적인 질의를 실행하기 위해서 기업들은 데이터 웨어하우스를 구축해야 한다. 데이터 웨어하우스는 여러 곳의 데이터들을 통일된 하나의 스키마로 하나의 사이트에 모음으로써 사용자에게 데이터에 대한 일관된 단일의 인터페이스를 제공한다.

    문자 데이터들 역시 폭발적으로 증가하였다. 문자 데이터는 관계형 데이터베이스의 구조적데이터와 달리 비구조적이다. 이와 같은 비구조적인 문자 데이터에 대한 질의를 가리켜 정보 검색이라 한다. 정보 검색 시스템은 데이터베이스 시스템과 많은 공통점을 지니는데, 특히 2차 저장장치에 대한 데이터 저장 및 검색이라는 점에서 그렇다. 하지만 정보 시스템 분야에서의 중요하게 다루는 것은 데이터베이스 시스템에서 중요하게 다루는 것과 차이가 있는데, 예를 들어 키우드 기반의 질의라던가 질의에 대한 문서의 연관도, 문서의 분석, 분류, 색인 등과 같은 문제들에 관심의 초점이 있다는 점에서 그렇다