새로운 DBMS 패러다임의 충돌에 관한 글이 있네요. (어려운 글이네요.)
2014.01.07 20:50
요즘 빅데이터니 뭐니 하면서 NoSQL 이야기도 많이 나오고 하둡이니 R이니 새로운 것들이 이리저리 나오는데요.
여기에 관한 글이 하나 있어서 올립니다.
http://www.zdnet.co.kr/column/column_view.asp?artice_id=20131217170208
세부적인 내용을 전부 이해할 필요는 없는거 같고, 이 글이 말하고자 하는 바를 한번 고민해봤으면 합니다.
코멘트 14
-
김강욱
01.07 21:11
-
종다리
01.07 21:16
이젠 IO처리보다 DB처리가 느리다죠 -
김강욱
01.07 21:57
I/O 가 항상 DB Performance 의 주된 이슈긴 했지요. 과거 (전 과거 사람이라...-_-)DB 구성중에 데이타, 인덱스, 아카이브, 로깅등을 다 나눌 정도로 말입니다.
그래도 충분히 빨라진건지는 잘 모르겠는데, 어떻게 이해를 해야 할지 말씀 좀 도와주실 수 있으실런지?
저도 RDB 에 익숙하다 보니, 충분히 빨라진건가요? 씨퓨도 워낙 발전 해서 어떻게 판단을 해야 할지 잘 모르겠습니다.
요즘 퍼포먼스의 주된 이슈는 뭔가요?
-
사실 IO로 바로 처리하는건 언제나 DB로 처리하는 것보다 빨랐어요. 다만 이미 만들어진 DB 시스템의 경우 BTree등으로 이미 잘 만들어져있지만, IO로 바로 처리하려면 그걸 스스로 만들어야 하고, 그걸 더 잘 만들 자신이 언제나 있는건 아니었죠.
현재 이슈가 되는건 SSD나 Memory DB라고 할 수 있습니다. 즉, 과거에 비해 압도적으로 빨라지고 커진 I/O 하드웨어들이 이젠 보편화되었다는거죠. 예전엔 메모리 1MB라도 아껴야 했을지 몰라도, 이젠 100MB 정도 데이터는 아예 그냥 메모리에 다 올려버리고 포인터 연산으로 쭉쭉 밀고 나가버리면 엄청 빠릅니다. 그냥 초짜가 메모리에 풀로 올려서 짜버려도, 구루들이 만들어온 DB 시스템들보다 더 빨리 처리된다는거죠. 전화번호 DB나 로그DB같은 게 아니면, 이젠 메모리 따위는 별 문제도 아닙니다.
과거 DB 시스템의 I/O 이슈는, Index와 스토리지간의 동기화가 큽니다. 스토리지가 엄청 느리고 메모리는 한정되었죠. 이 개념의 변화는 Index 따위는 무시하는, Full scan index를 쓰는 것도 전혀 바보 짓이 아닌 세상이 이제 다가와버린 겁니다. 실제로 Amazon AWS에서 베타 테스트중인 Simple DB Service는 Index나 parent 관계도 없고, 심지어 coloum type조차 없어요. 그냥 전부 text 기반의 full scan index로 처리됩니다. 사용자는 데이터를 그냥 넣고, 마음대로 검색하면 되는겁니다.
-
김강욱
01.07 22:28
읽기만 해도 왠지 행복해지는 데요. -_-;;;
-
종다리
01.08 00:33
조금 가벼워질필요성이 있지 않을 까요 -
해색주
01.07 22:51
저는 개발자도 아니고 IT 전문가도 아니고, 분석가라는 한 귀퉁이 부분을 차지하고 있는 사람입니다. 제가 보기에 빅데이터는 기존에 있었던 고객관리나 통계분석의 연장선이며 또한 분산처리를 통한 대규모 데이터를 이용해서 자료를 분석하는 것입니다. 네, 저는 개발자가 아니므로 기술적인 부분이나 프로그래밍 부분에는 약하지만, 저러한 빅데이터 처리 기술을 이용해서 어떠한 것을 분석해야 하는지 그리고 그것으로 어디서 돈을 버는지 고민하는 일을 합니다.
따라서 개발자나 기술자와는 다른 관점에서 저것들을 어떤 부분에서 써야 할지 관심이 있고 거기서 R, SAS와 같은 통계툴과 알고리즘을 어떻게 해야 할지 고민하는 부분이죠. 요즘 대부분의 빅데이터 관련된 컨퍼런스가 고속도의 처리와 같은 부분에 집중하지, 실제 어떤 부분에서 혁신을 일으켰는지 그리고 효용이 있었는지에 대해서는 그리 많은 시간을 할애하지 않습니다. 기술적인 부분에서도 조금식 한계나 약점이 튀어나고 있는 부분이 있구요, 단순히 빠른 속도라면 그걸로 어떻게 돈을 벌지는 고민하지 않은 부분도 있는 것 같습니다.
IT 회사나 기술업체들은 그 부분은 이용자가 고민해야 하는 부분이라고 말하겠지만, 솔직히 한국에는 그런 부분에서 깊숙이 고민하는 갑은 그리 많지 않다고 봅니다. 그리고 기존의 내부 데이터를 어떻게 효율화 할 것이냐, 그리고 이것을 어떻게 외부 자료와 연계해서 돈을 만들 것이냐는 아직 확인되지 않은 부분이라고 봅니다.
R은 어느 날 하늘에서 떨어진 것이 아니라 기존에 있던 통계언어가 S-Plus를 거쳐서 오픈소스화 해서 만들어진 것이지, 실제 SAS와 같은 통계팩키지 시스템/언어와 전혀 다른 것은 아닙니다. 실제로 2000년대 들어서 한국의 많은 학교에서 대안으로 가르치던 언어였고 아주 빠르고 가벼운 대화식 통계 언어인데, 백엔드로 많이 사용되더군요.
주변에서는 Java로 전체적인 프로세스를 짜고 통계 알고리즘이 필요한 경우에는 R을 이용해서 처리하는 방식으로 프로젝트를 진해하고 있더군요. 나름 이 분야에서 일하는 현업이라서 트렌드에 뒤쳐지지 않기 위해서 많이 배우고 따라가려고 노력하는데, 현재 빅데이터의 경우 지나치게 기술 위주/속도 위주라서 조금은 걱정이 됩니다. 대부분의 대기업/금융회사들은 빅데이터를 운용하기 위해서 자체 팀을 꾸리고 시스템 도입을 준비하고 있지만 성공사례가 아직 한국에서는 없다고 압니다.
미국의 경우 아마존이나 넷플릭스의 경우 빅데이터를 이용해서 고객 세분화, 오퍼 최적화 등등을 이용해서 사용자들의 요구를 분석하여, 더이상 고민하지 않고 아마존의 오퍼를 받아들이는 상황까지 이르렀다고 합니다. 한국에서도 이러한 것들이 적용되고 계속 발전하기 위해서는 기술적인 부분과 더불어 실제 적용에서도 성과를 내는 방식으로 진행되었으면 합니다.
정말 분석가로서, 빅데이터는 또다른 좌절입니다. 고생해서 통계와 통계 팩키지 이해할만하니까 전혀 새로운 패러다임이 왔고 전혀 모르는 언어로 개발자들이 빅데이터를 말하기 시작했거든요. 작년 빅데이터 컨퍼런스 가보니 이제 TechDay라고 해서 개발자들만 별도로 모이는 컨퍼런스를 따로 기획중이더군요. 아, 너무 어렵습니다.
아래는 해당 분야를 잘 정리한 제 선배의 블로그입니다. 참조할만한 자료들이 참 많습니다.
-
모든 분야가 그래요. 심지어 야구만 해도 현장전문가와 외부전문가, 분석가, 선수들의 노하우가 전혀 하나로 엮이지 않은채 따로 따로 가고 있으니깐요. 넥슨의 이장석은 그걸 정말 잘 활용하고 있다는걸 실적으로 보여주었구요. 그 사람은 원래 야구전문가는 아니었지만, 신고선수들 데이터까지 전부 다 외우고 자기 전문지식을 활용해 그걸 분석하고 활용하는 모습을 보여주지요.
솔직히 말씀드리자면, 지금의 금융권이나 대기업들이 빅데이터라는걸 가지고 성과를 낼거라고 보지 않습니다. 사실 빅데이터라는 개념은 해색주님께서 말씀하신 것처럼 새롭게 나온 개념이 아니라 기존에 사용했던 것들에 이름붙히기를 한 것에 불과하죠. 결국 지금까지 해왔던 것들을 가지고 좀더 전문적으로 특화시켜본다는건데, 지금까지도 제대로 못했는데 거기에 빅데이터라고 하나 붙히고 갑자기 기술자 등을 투입한다고 되는건 아니죠. 빅데이터라는건 목적이 아닌 수단인데... 대체 다들 저 정보를 가지고 구체적으로 무얼 하고 싶어하는걸까요?
-
해색주
01.07 23:23
IT책늘 보면 은탄환(Silver Bullet)은 없다고 합니다만, 지금 분위기로서는 빅데이터가 거의 만병통치약처럼 팔리는 분위기라서요. ^^ 실제 공공, 보건의료같은 경우 한국에서 가시적인 성과가 보이더군요. 노선 재배열, 의료보험 부정사용과 같은 분야는 이미 가시적인 성과가 나오고 있습니다. -
김강욱
01.08 00:38
한국에서는 "빅데이타 책" "빅데이타 서버"가 빅데이타로 돈 벌어먹는 첫 수단이자 마지막 수단일겝니다.
고갱님과는 별로 상관없을 듯.
-
넥슨 --> 넥센... ㅎㅎ
-
어허허허헝~ 넥슨이라니!!! 넥슨이라니!!!
-
왕초보
01.08 04:50
메모리 검색도 느리단 얘기가 곧 나올듯. 어디나 통하는 얘기지만, 빅데이타가 좋은 일에 쓰일 수도 있지만, 나쁜 일에도 쓰일 수 있다는 점은 잊지 않았으면 합니다.
-
꼬소
01.08 09:32
자체 개발한 인 메모리 디비 사용하고 있지만 index 많이 걸면 느린건 사실 입니다
감사합니다.
저로써도 여하튼 논쟁에 좀 필요한 내용이었습니다.