카테고리 없음

SAS 라인 머신

성공을 도와주기 2019. 2. 9. 11:32

딥러닝 활용사례 https://skymind.ai/kr/wiki/use-cases

딥 러이활용사례: 반도체 공정 등 http://blogs.nvidia.co.kr/2018/11/16/deeplearning-best-practice/

아마존 딥 러닝 기술활용사례 https://www.youtube.com/watch?v=RonzxMpdTDk

3D 딥러닝 동향 https://www.youtube.com/watch?v=rqR-z2mNqmM

산업별 적용사례 https://www.youtube.com/watch?v=nxw6icRHOoU


머신러닝은 인공지능(AI)의 한 분야로, 데이터 분석을 위한 모델 생성을 자동화 하여 소프트웨어가 데이터를 바탕으로 학습하고 패턴을 찾아냅니다. 이를 통해 사람의 개입을 최소화 하고 빠르게 의사 결정을 내릴 수 있도록 지원합니다.


머신러닝의 발전

새로운 컴퓨팅 기술의 발전으로 오늘날의 머신러닝은 과거의 머신러닝과는 다른 모습을 보이고 있습니다. 머신러닝 기술은 특정한 과제를 수행하도록 프로그래밍하지 않아도 컴퓨터가 학습할 수 있다는 이론과 데이터 패턴 인식이 어우러져 탄생했습니다. 인공지능(AI)에 관심을 가진 연구자들은 컴퓨터가 데이터를 통해 학습할 수 있는지 알고자 했습니다. 새로운 데이터에 노출됨에 따라 독립적으로 최적화를 수행한다는 점에서 머신러닝에서는 반복적 측면이 중요한데, 이전 연산 결과를 학습하여 믿을 수 있는 의사 결정 및 결과를 반복적으로 산출하기 때문입니다 머신러닝은 새로운 개념은 아니지만 새롭게 각광 받고 있는 분야로 떠오르고 있습니다.

오랜 기간 수 많은 머신러닝 알고리즘이 등장하였지만 새로운 기술의 발전에 힘입어 복잡한 수학적 계산을 반복하여 더욱 빠르게 빅 데이터 분석에 자동으로 적용할 수 있는 기술들이 개발되고 있습니다. 머신러닝이 상용화 되면서 주변에서 쉽게 접할 수 있는 몇가지 사례는 아래와 같습니다.

  • 대대적인 홍보를 하고 있는 Google의 자동 주행 자동차
  • Amazon과 Netflix에서 제공하는 온라인 상품 추천 시스템
  • Twitter (mention 분석을)를 통한 고객의 기업 평가 분석과 같은 텍스트 분석
  • 사기 및 부당 거래 탐지와 같은 사기 탐지

    Teal abstract honeycomb background with white line art overlay

    머신러닝은 인공지능(AI)의 한 분야로, 데이터 분석을 위한 모델 생성을 자동화 하여 소프트웨어가 데이터를 바탕으로 학습하고 패턴을 찾아냅니다. 이를 통해 사람의 개입을 최소화 하고 빠르게 의사 결정을 내릴 수 있도록 지원합니다.

    머신러닝의 중요성

    머신러닝에 대한 관심은 데이터 마이닝이나 베이지안 분석과 같은 기술의 발전에서 찾아볼 수 있습니다. 즉, 사용 가능한 데이터의 볼륨과 다양성의 증가, 분석 비용의 감소, 강력해진 분석 기술, 저렴한 스토리지 비용 등이 머신러닝에 대한 지속적인 관심을 불러일으키는 요인입니다.

    이 모든 상황을 종합해보면 아무리 규모가 큰 데이터라도 분석 모델을 자동으로 빠르게 생성함으로써 복잡한 분석에서 정확한 결과를 도출할 수 있습니다. 또한, 기업들은 이러한 결과를 이용하여 수익성이 높은 기회를 찾아내거나 미지의 위험을 회피하는 등 인사이트를 획득할 수 있습니다.

  • 널리 사용되고 있는 머신러닝 기법

    가장 널리 채택되고 있는 머신러닝 기법은 지도 학습과 비지도 학습 두 가지이지만 그 밖의 머신러닝 방법들도 존재합니다.
    여기에서는 가장 일반적으로 활용되는 유형에 대해 간략히 알아봅니다.

    지도 학습 알고리즘은 목표 출력값을 알고 있는 입력값처럼 레이블이 지정된 데이터 정보를 사용해 트레이닝됩니다. 예를 들어 데이터 포인트에 "F"(failed) 또는 "R"(runs)이라는 레이블이 지정되어 있는 장비가 있다고 가정해 봅시다. 그러면 학습 알고리즘에 따라 입력값 집합이 그에 상응하는 정확한 출력값과 함께 수신됩니다. 이후 실제 출력값과 정확한 출력값을 서로 비교하여 오류를 검출하면서 알고리즘 학습이 이루어집니다. 그런 다음 학습 결과에 따라 모델을 수정합니다. 지도 학습은 분류, 회귀분석, 예측 및 변화도 부스팅 등의 기법을 통해 발견한 패턴을 사용하여 추가로 레이블이 지정되지 않은 데이터의 레이블 값을 예측합니다. 지난 데이터를 기반으로 앞으로 있을 이벤트를 예측하는 데 지도 학습이 가장 보편적으로 사용됩니다. 예를 들어 신용 카드 거래의 사기성이나 보험 가입자의 보험금 청구 가능성 여부 등을 예측하는 데 효과적입니다

    비지도 학습은 이전 레이블이 없는 데이터를 학습하는 데 사용됩니다. 이 시스템에는 "정답"이 없기 때문에 알고리즘을 통해 현재 무엇이 출력되고 있는지 알 수 있어야 합니다. 따라서 데이터를 탐색하여 내부 구조를 파악하는 것이 목적입니다. 비지도 학습은 트랜잭션 데이터에서 특히 효과적입니다. 예를 들어 유사한 속성의 고객 세그먼트를 식별한 후 그 유사성을 근거로 마케팅 캠페인에서 고객 세그먼트를 관리하거나 고객 세그먼트의 구분 기준이 되는 주요 속성을 찾을 수도 있습니다. 주요 기법으로는 자기 조직화 지도(self-organizing maps), 최근접 이웃 매핑(nearest-neighbor mapping), k-평균 군집화(k-mㅇeans clustering), 특이값 분해(singular value decomposition) 등이 있는데, 이러한 알고리즘은 텍스트 주제를 세분화하고 항목을 권장하며 데이터 이상점(Outlier)을 식별하는 데도 이용됩니다.

    준지도 학습이 활용되는 응용 분야는 지도 학습과 다르지 않습니다. 하지만 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 사용해 트레이닝한다는 점에서 차이가 있습니다. 주로 레이블이 지정된 데이터는 용량이 작고, 레이블이 지정되지 않은 데이터는 용량이 큽니다. 그 이유는 레이블이 지정되지 않은 데이터의 경우 수집에 많은 노력이 필요하지 않아 비용이 저렴하기 때문입니다. 또한 준지도 학습은 레이블 지정에 따른 비용이 너무 높아서 완전한 레이블 지정 트레이닝이 어려운 경우에도 유용합니다 이 학습 기법을 사용한 초기 사례로는 웹 캠을 이용한 안면 인식 기술이 있습니다.



    강화 학습은 로봇, 게임 및 내비게이션에 많이 이용됩니다. 강화 학습 알고리즘은 시행착오를 거쳐 보상을 극대화할 수 있는 행동을 찾아냅니다. 이러한 유형의 학습은 기본적으로 에이전트(학습자 또는 의사결정권자), 환경(에이전트가 상호작용하는 모든 대상), 동작(에이전트 활동)이라는 세 가지 요소로 구성됩니다. 이 알고리즘의 목적은 에이전트가 일정한 시간 내에 예상되는 보상을 극대화할 수 있는 동작을 선택하도록 하는 데 있습니다. 에이전트는 유효한 정책을 따라 목표에 이르는 시간이 더욱 빨라집니다. 따라서 강화 학습의 목표는 최선의 정책을 학습하는 것이라고 할 수 있습니다.

    일반적으로 사람이 1주일에 생성할 수 있는 양질의 모델은 1~2개에 불과하지만 머신러닝은 같은 기간에 수천 개의 모델을 생성할 수 있습니다.

    Thomas H. Davenport, 분석 기술의 권위자
    The Wall Street Journal 발췌

    데이터 마이닝, 머신러닝, 딥러닝의 차이

    이 세 가지 방법은 모두 인사이트, 패턴 및 관계를 도출하여 의사 결정에 이용한다는 동일한 목적을 가지고 있지만 접근 방식과 해낼 수 있는 역할에 차이가 있습니다.


    데이터 마이닝 (Data Mining)

    데이터 마이닝은 데이터로부터 인사이트를 도출해내기 위한 많은 방법들의 상위 개념으로 볼 수 있습니다. 여기에는 전통적인 의미의 통계 기법과 머신러닝도 포함됩니다. 데이터 마이닝은 다양한 영역의 기법을 적용하여 이전에 데이터에서 발견하지 못한 패턴을 찾아낼 수 있는데, 여기에는 통계적 알고리즘, 머신러닝, 텍스트 분석, 시계열 분석 등 기타 다양한 영역의 분석 기법이 포함됩니다. 그 밖에 데이터 스토리지 및 조작에 대한 연구와 노력도 예외는 아닙니다.

     


    머신러닝 (Machine Learning)

    머신러닝의 주요 차이점은 일반적으로 통계 모델이 그러하듯 데이터 구조를 파악할 목적으로 데이터에 이론적 분포를 적용한다는 점입니다. 그러다 보니 통계 모델에서는 수학적 검증을 통해 모델을 뒷받침하는 이론이 있기 마련입니다. 하지만 이러한 이론 역시 데이터가 납득할 수 있는 가설을 만족해야만 성립됩니다. 비록 데이터 구조의 형태를 나타내는 이론은 없다고 해도 머신러닝은 데이터의 구조 유무를 탐색할 수 있는 컴퓨터의 능력을 기반으로 개발되었습니다. 머신러닝 모델에 대한 테스트는 귀무 가설을 검증하기 위한 이론적 테스트가 아니라 새로운 데이터에 대한 검증 오차를 통해 이루어집니다. 머신러닝은 반복적인 접근 방식으로 데이터를 통해 학습하기 때문에 손쉽게 자동화할 수 있습니다. 이후 데이터를 통해 패스를 반복하며 강력한 패턴을 발견하게 됩니다.

    Deep learning infographic

    딥러닝 (Deep learning)

    딥러닝은 놀랍도록 향상된 컴퓨팅 파워와 특수한 유형의 신경망을 서로 결합하여 대용량의 데이터에서 복잡한 패턴을 학습합니다. 오늘날 딥러닝은 기법은 이미지에서 개체를, 사운드에서 단어를 식별하는 최첨단 기술로 인정받고 있습니다. 그 밖에 연구 기관들도 자동 언어 번역, 의학적 진단, 그 밖에 중요한 사회 및 비즈니스 문제 등 복잡한 과제에 이러한 성공적인 패턴 인식 기술을 적용하려는 모습도 보이고 있습니다.

    활용 방안

    머신러닝의 가치를 극대화 하기 위해서는 최적의 알고리즘과 적합한 도구 및 프로세스를 결합시키는 방법을 알아야 합니다. SAS는 통계 및 데이터 마이닝 분야에서 쌓아온 풍부하고 정교한 노하우와 새로운 아키텍처 기술을 결합하여 방대한 엔터프라이즈 환경에서도 분석 모델의 운영 시간을 최대한 단축할 수 있습니다.

    알고리즘: SAS 그래픽 인터페이스는 머신러닝 모델을 구축하여 반복적인 머신러닝 프로세스를 구현하는 데 효과적입니다. 통계 전문가 뿐 아니라 실무진 등 모든 사용자들이 쉽게 사용할 수 있습니다. 다양한 SAS 솔루션에 머신러닝 알고리즘이 포괄적으로 구성되어 있으므로 원하는 알고리즘을 선택하여 빅 데이터의 가치를 신속하게 창출할 수 있습니다. SAS는 아래와 같은 머신러닝 알고리즘을 제공합니다.

    신경망(Neural networks)
     
    의사 결정 트리 (Decision trees)
     
    랜덤 포레스트 (Random forests)
     
    연관성 및 수열 탐색 (Associations and sequence discovery)
     
    변화도 부스팅 및 배깅 (Gradient boosting and bagging)
     
    서포트 벡터 머신 (Support vector machines)
     
    최근접 이웃 매핑 (Nearest-neighbor mapping)
     
    k 평균 군집화 (k-means clustering)
     
    자기 조직화 지도 (Self-organizing maps)
     
    로컬 검색 최적화 기법(유전자 알고리즘 등) 
    Local search optimization techniques (e.g., genetic algorithms)
     
    기대값 최대화 (Expectation maximization)
     
    다변량 적응 회귀분석 모형(MARS)
    (Multivariate adaptive regression splines)
     
    베이지안 네트워크 (Bayesian networks)
     
    커널 밀도 추정 (Kernel density estimation)
     
    주요 구성요소 분석 (Principal component analysis)
     
    특이값 분해 (Singular value decomposition)
     
    가우스 혼합 모델 (Gaussian mixture models)
     
    순차적 커버링 규칙 구성 (Sequential covering rule building)
     

     

    도구 및 프로세스: 우리가 지금 얘기하는 것은 단순히 알고리즘의 문제가 아닙니다. 궁극적으로 빅 데이터에서 최고의 가치를 창출하려면 당면과제에 가장 적합한 알고리즘을 다음과 같은 능력과 결합할 수 있어야 합니다.

    종합적인 데이터 품질 관리
     
    모델 및 프로세스 플로를 구축하기 위한 GUI
     
    인터랙티브 데이터 탐색과 모델 결과의 시각화
     
    여러 머신러닝 모델을 비교하여 최적의 모델을 빠르게 식별
     
    앙상블 모델의 평가 자동화로 최상의 모델 식별
     
    신뢰할 수 있는 결과를 반복하여 빠르게 도출할 수 있는 간편한 모델 배포
     
    데이터에서 의사결정으로 이어지는 프로세스의 자동화를 위한 종합적인 엔드 투 앤드(end-to-end) 플랫폼






제조 분석 솔루션

SAS 분석을 통한 핵심적인 공급망 연결고리 구축