[고든 정의 TECH+] 빅데이터 과학 시대가 온다
인류가 생산하는 데이터의 양이 이전과는 비교할 수 없이 많아지면서 ‘빅데이터’라는 새로운 용어가 생기고 관련 데이터를 처리하는 기술도 발전하고 있습니다. 이제는 데이터가 21세기 원유라는 이야기까지 나오는 세상입니다. 이런 변화는 과학 연구 분야에서도 예외가 아닙니다.
관측기기나 분석장치의 성능이 좋아지면서 이제 기가바이트(GB) 단위는 물론 테라바이트(TB) 단위의 과학 데이터들이 과학자들을 위해서 공개되고 있습니다. 그리고 앞으로는 페타바이트(PB, Petabyte, 10의 15제곱)를 넘어 엑사바이트(EB, Exabyte 10의 18제곱)나 제타바이트 (ZB, Zettabyte, 10의 21제곱) 규모의 과학 데이터가 공개되어 과학 연구의 양상을 바꿀 것으로 예상됩니다.
이전에는 연구자 개인이나 연구팀이 모은 소규모 데이터를 분석해서 연구가 진행되었다면 이제는 막대한 예산을 집행해 모은 거대과학 데이터가 과학자 집단을 위해 공개되고 있습니다. 따라서 이런 대규모 데이터를 다룰 수 있는 능력이 어느 때보다 중요해지고 있습니다. 데이터를 모두에게 공개하는 오픈 데이터(open data)가 늘어나고 데이터 크기도 계속 커지면서 직접 실험하고 관측하는 과학자 이외에 데이터를 분석해 결과를 내는 과학자의 역할이 커지는 것입니다.
최근 그런 사례 가운데 하나로 거대 강입자 충돌기(LHC)의 CMS(Compact Muon Solenoi) 오픈 데이터가 있습니다. CMS 오픈 데이터는 29TB에 달하는 거대 데이터로 3억 건 이상의 입자 충돌 데이터가 포함되어 있습니다. 사실 소수의 과학자팀이 모두 분석하기 어려운 규모이므로 이를 공개하는 것이 모두를 위해 이득이 될 수 있습니다. 물론 실제로 존재하지 않는 입자를 찾았다고 주장할 가능성이 있지만, 오픈된 데이터이므로 서로 검증하기가 쉽고 오류를 쉽게 찾아낼 수도 있습니다. 최근 이를 이용한 연구 결과들이 하나씩 등장하고 있는데, 이런 거대 입자 가속기 장치가 없는 과학자들에게도 연구할 기회를 열었다는 점에서 획기적인 변화라고 할 수 있습니다.
거대한 집단 과학 연구를 통해 데이터를 공유하고 분석하는 일은 이제 새로운 추세가 되고 있습니다. 현재 추진 중인 Earth BioGenome 프로젝트는 지구상 모든 진핵생물의 10%에 해당하는 150만 종의 생물체의 DNA의 정보를 수집한 거대 데이터베이스를 만들고 이를 공유하는 것입니다. 물론 유전자 데이터의 양이 매우 크기 때문에 전체 데이터 규모는 엑사바이트 급이 될 것입니다. 이는 수억 장의 DVD에 나눠 담아야 할 만큼 거대한 데이터입니다.
이런 프로젝트의 추진이 가능해진 이유는 DNA 분석 기술의 발달로 전체 염기서열을 해석하는 비용이 크게 저렴해진 데 있습니다. 하지만 워낙 많은 샘플을 분석해야 되서 전체 비용이 470억 달러 이상이 될 것으로 예상되고 있습니다. 현재는 계획 및 준비 단계지만, 현재 다양한 생물의 DNA 데이터 베이스가 구축되고 있다는 점을 생각하면 비교적 가까운 미래에 프로젝트가 본격적으로 추진될 수 있을 것으로 기대됩니다.
엑사바이트도 쉽게 상상이 되지 않는 거대한 데이터지만, 이를 다시 한 단위 뛰어넘는 제타바이트급 과학 프로젝트도 진행되고 있습니다. 초당 DVD 35,000장의 데이터를 생성할 거대 전파 망원경 프로젝트인 SKA (Square Kilometre Array)이 그것입니다. 호주에 건설될 SKA1 low 전파 망원경은 13만 개의 안테나에서 초당 157TB의 데이터를 생산합니다. 이는 연간 4.9ZB에 달하는 엄청난 규모로 이를 처리해 저장하는 것 자체가 큰 도전입니다. SKA는 세계 20여 개국이 서로 협력해 진행되고 있으며 2024년부터 초기 관측 결과를 보여줄 예정입니다.
이런 과학 빅데이터는 우리의 일상생활과 동떨어진 전문가들의 영역으로 여겨질 수 있습니다. 물론 이를 분석하고 결과를 내는 것은 전문가의 영역입니다. 하지만 이렇게 얻은 결과물은 인류 전체의 자산이 됩니다. 인공 지능이나 빅데이터 기술이 알게 모르게 우리 주변으로 파고드는 것처럼 빅데이터 과학의 결과물 역시 인류의 삶과 지식을 높여 나갈 것입니다.
고든 정 칼럼니스트 jjy0501@naver.com
'빅데이터' 카테고리의 다른 글
[머신러닝] 컴퓨터가 학습을 하는 원리 (0) | 2018.06.09 |
---|---|
기계학습 (Machine Learning) (0) | 2018.06.09 |
공공 데이타 신청 최대부문 1위 (0) | 2018.05.12 |
빅데이터를 활용한 한일 중소기업의 한계 극복 전략 (0) | 2018.04.02 |
데이터 스토어 (데이터를싸고 파는 웹사이트) (0) | 2018.04.02 |