머신러닝의 사용자
많은 양의 데이터를 처리하고 분석하는 대부분의 산업에서는 머신러닝을 적극적으로 활용하고 있습니다. 대부분 실시간 데이터를 분석하고 인사이트를 얻음으로써 기업은 보다 효과적으로 기회를 포착하고 경쟁 우위를 획득할 수 있습니다.
은행을 비롯해 금융 산업에서는 머신러닝 기법을 다음과 같이 활용합니다. 첫째로 데이터로부터 중요한 인사이트를 확인하고 사기를 방지하는 것입니다. 이러한 인사이트는 투자 기회를 확인하거나 투자자가 거래 시기를 정확히 파악할 수 있도록 지원합니다. 또한 데이터 마이닝을 이용해 고위험 특징을 보이는 클라이언트를 식별하거나 사이버 감시를 이용해 사기의 전조 징후를 정확하게 발견해낼 수 있습니다.
공공의 안전을 담당하는 정부 부처와 공공 서비스를 제공하는 기관에서는 다양한 데이터를 가지고 있기 때문에 머신러닝으로 인사이트를 획득할 수 있는 기회가 특히 많습니다. 예를 들어, 센서 데이터를 분석하여 효율성을 높이고 비용을 절감할 수 있는 방법을 찾아낼 수도 있고 머신러닝을 이용하여 사기를 감지하고 개인정보 도용을 최소화할 수도 있습니다.
IoT 기술을 이용해 환자의 건강 상태를 실시간으로 파악할 수 있는 웨어러블 장치와 센서 덕분에 의료 산업은 머신러닝이 빠르게 성장하는 주 무대가 되고 있습니다. 또한 머신러닝은 의료 전문가가 실시간 데이터를 분석하여 환자의 변화 추이나 적색 경고를 확인함으로써 진단과 치료 효과 개선에 활용될 수 있습니다.
구매자가 좋아할 만한 상품을 추천하는 웹사이트도 머신러닝을 활용할 수 있습니다. 과거 구매자의 검색 및 구매 기록을 분석하여 상품 추천 및 홍보에 사용할 수 있습니다. 이렇게 데이터를 포착하여 활용해서 쇼핑 경험을 개별화(또는 마케팅 캠패인 실행)하는 추세가 산업의 미래로 다가오고 있습니다.
새로운 에너지원의 발견, 매장된 광물 분석, 정유 시설의 센서 고장 예측, 보다 효율적이고 경제적으로 석유 물류 구조 개선 등 석유 및 가스 산업에서 머신러닝을 활용할 수 있는 부분이 매우 많을 뿐 아니라 계속해서 그 사용 범위가 늘어나고 있습니다.
수익성을 높이기 위해 이동 경로를 효율적으로 배치하고 잠재적인 문제를 예측해야 하는 운송 업계에서도 데이터를 분석하여 패턴과 트렌드를 찾아내는 기술이 핵심 기술로 대두되고 있습니다. 따라서 택배 업체, 대중 교통 서비스 및 기타 운송 기업은 머신러닝의 데이터 분석과 모델링 기술을 중요한 분석 솔루션으로 이용하고 있습니다.
딥 러닝 30가지 사례
https://brunch.co.kr/@itschloe1/23
널리 사용되고 있는 머신러닝 기법
가장 널리 채택되고 있는 머신러닝 기법은 지도 학습과 비지도 학습 두 가지이지만 그 밖의 머신러닝 방법들도 존재합니다.
여기에서는 가장 일반적으로 활용되는 유형에 대해 간략히 알아봅니다.
지도 학습 알고리즘은 목표 출력값을 알고 있는 입력값처럼 레이블이 지정된 데이터 정보를 사용해 트레이닝됩니다. 예를 들어 데이터 포인트에 "F"(failed) 또는 "R"(runs)이라는 레이블이 지정되어 있는 장비가 있다고 가정해 봅시다. 그러면 학습 알고리즘에 따라 입력값 집합이 그에 상응하는 정확한 출력값과 함께 수신됩니다. 이후 실제 출력값과 정확한 출력값을 서로 비교하여 오류를 검출하면서 알고리즘 학습이 이루어집니다. 그런 다음 학습 결과에 따라 모델을 수정합니다. 지도 학습은 분류, 회귀분석, 예측 및 변화도 부스팅 등의 기법을 통해 발견한 패턴을 사용하여 추가로 레이블이 지정되지 않은 데이터의 레이블 값을 예측합니다. 지난 데이터를 기반으로 앞으로 있을 이벤트를 예측하는 데 지도 학습이 가장 보편적으로 사용됩니다. 예를 들어 신용 카드 거래의 사기성이나 보험 가입자의 보험금 청구 가능성 여부 등을 예측하는 데 효과적입니다
비지도 학습은 이전 레이블이 없는 데이터를 학습하는 데 사용됩니다. 이 시스템에는 "정답"이 없기 때문에 알고리즘을 통해 현재 무엇이 출력되고 있는지 알 수 있어야 합니다. 따라서 데이터를 탐색하여 내부 구조를 파악하는 것이 목적입니다. 비지도 학습은 트랜잭션 데이터에서 특히 효과적입니다. 예를 들어 유사한 속성의 고객 세그먼트를 식별한 후 그 유사성을 근거로 마케팅 캠페인에서 고객 세그먼트를 관리하거나 고객 세그먼트의 구분 기준이 되는 주요 속성을 찾을 수도 있습니다. 주요 기법으로는 자기 조직화 지도(self-organizing maps), 최근접 이웃 매핑(nearest-neighbor mapping), k-평균 군집화(k-mㅇeans clustering), 특이값 분해(singular value decomposition) 등이 있는데, 이러한 알고리즘은 텍스트 주제를 세분화하고 항목을 권장하며 데이터 이상점(Outlier)을 식별하는 데도 이용됩니다.
준지도 학습이 활용되는 응용 분야는 지도 학습과 다르지 않습니다. 하지만 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 사용해 트레이닝한다는 점에서 차이가 있습니다. 주로 레이블이 지정된 데이터는 용량이 작고, 레이블이 지정되지 않은 데이터는 용량이 큽니다. 그 이유는 레이블이 지정되지 않은 데이터의 경우 수집에 많은 노력이 필요하지 않아 비용이 저렴하기 때문입니다. 또한 준지도 학습은 레이블 지정에 따른 비용이 너무 높아서 완전한 레이블 지정 트레이닝이 어려운 경우에도 유용합니다 이 학습 기법을 사용한 초기 사례로는 웹 캠을 이용한 안면 인식 기술이 있습니다.
강화 학습은 로봇, 게임 및 내비게이션에 많이 이용됩니다. 강화 학습 알고리즘은 시행착오를 거쳐 보상을 극대화할 수 있는 행동을 찾아냅니다. 이러한 유형의 학습은 기본적으로 에이전트(학습자 또는 의사결정권자), 환경(에이전트가 상호작용하는 모든 대상), 동작(에이전트 활동)이라는 세 가지 요소로 구성됩니다. 이 알고리즘의 목적은 에이전트가 일정한 시간 내에 예상되는 보상을 극대화할 수 있는 동작을 선택하도록 하는 데 있습니다. 에이전트는 유효한 정책을 따라 목표에 이르는 시간이 더욱 빨라집니다. 따라서 강화 학습의 목표는 최선의 정책을 학습하는 것이라고 할 수 있습니다.
일반적으로 사람이 1주일에 생성할 수 있는 양질의 모델은 1~2개에 불과하지만 머신러닝은 같은 기간에 수천 개의 모델을 생성할 수 있습니다.
Thomas H. Davenport, 분석 기술의 권위자
The Wall Street Journal 발췌