회사의 프로젝트 때문에 시작하게 된 SPLUNK ! 일단 기본 개념부터 공부해야 겠다. 일단 BIG DATA 부터 !
1. 뭔데 BIG DATA?!
이번에 사장님과 룰루랄라 갔던 세미나에서 빅데이터를 짤막하게 설명해주셨다.
빅데이터 말이 많아졌지만 요새 빅데이터의 개념은 어떻게 정의가 되고 있는가 ? 빅데이터가 하나의 용어 였다면 이제 소셜 + 스마트 합친 거라고 나 할까 ?
소셜이나 구글의 모든 자료들 그리고 사람들은 이제 pc뿐 아니라 스마튼폰으로 수시로 로그를 남긴다.
그모든게 다 빅데이터가 아닐까? 이제는 하나의 용어가 아니라 그냥 BIG DATA 다!
2. BIG DATA는 어떻게 쓸건데?
이미 구글은 인공위성,자체 솔루션을 통해서 데이터를 수집하고 있고 사람의 조종에 의해서 움직이는 로봇이 아닌 빅데이터의 분석으로 마치 생각하여 스스로 움직이는 듯한 무인분석 로봇을 만들고 있다고 한다.
사람이 없어도 스스로 사람을 돕는 영화와 같은 로봇도 나오게 되지 않을까?
3. 3V ?
BIG DATA를 가리키는 3가지가 있다.
하나, VOLUME 데이터의 양이다 무수하게 많은 데이터! 우리나라에서는 TB까지 데이터가 쌓일 것으로 기대하고 있다고 한다.
둘, VELOCITY 배치X, 실시간! 빅데이터는 빠른 속도가 장점이다.
셋, VARIETY sql이 정형화 되어있다면 빅데이터는 비정형화가 기본이고 거기서 정형화를 또 만드라어 낼수 있다.
4. BIG DATA 100% 신뢰 할 수 있다?
아니다. 신뢰도를 높여줄뿐이지 100%는 아니라고 한다 어떻게 가공하고 분석하냐에 따라서 BIG DATA의 신뢰도는 높여 진다.
5. 신뢰할수 있는 데이터를 어떻게 가공하지?
오픈 소스인 하둡과 nosql을 많이 쓰고 있지만 난 이번에 SPLUNK 를 회사에서 쓰기로 했기 때문에 SPLUNK를 로 데이터를 요리조리 쪼물딱 해볼 것이다 !
6. BIG DATA는 어디서 얻지 ?
보통은 라우터나 백본 L4에 정보가 들어 오고 나가 하는 네트워크 로그들을 저장해 둔다면 그것도 해킹을 예측하고 방어하는데에 아주 좋은 자료가 될수 있고 시스템로그가 많이 쓰인다고 한다.
네이버나 다음과 같이 대형 포털 사이트에 하루에 접속자는 몇만명 그들의 사이트의 이동경로를 본다면 기호라던지 많은 자료가 쌓이게 된다.
좋은 예로 다음 사이트에 들어가면 본인들의 빅데이터 활용을 어떻게 했는지 깔끔하게 구성 되어 있다.