가장 인상 깊은 내용 한가지를 꼽자면...
"데이터 분서의 미래는 밝다. 차세대 킨제이는 분명 데이터 과학자일 것이다. 차세대 푸코는 데이터 과학자일 것이다. 차세대 마르크스는 데이터 과학자일 것이다. 차세대 소크라테스는 데이터 과학자일 것이다. " p321
=> 심오한 철학적인 질문이나 다양한 사회현상을 분석하기 위해선 데이터 (그중에서도 특히 검색 데이터)가 가장 효율적인 방법이다. 그렇기에 현대 사회의 크고 심오한 문제를 접근하기 위해선 반드시 데이터를 분석해야 한다. 그런 의미에서 저자는 차세대 마르크스는 데이터 과학자일 것이라고 말한 것 같다. 상당히 재미있는 결론이다.
흥미로운 에피소드 혹은 예시
1. 췌장암을 예견하는 징후를 찾고자 마이크로소프트 검색엔진 빙을 쓰는 익명의 사용자 수만 명의 데이터를 이용함. '췌장암'을 검색한 사람이 차후 검색했던 증상을 찾아냈다.
2. 사람들이 잘못 쓴 단어들로 프로그램을 구동시켰다. 에러봇은 r을 t로 잘못 쓴 사례를 걸러냈다.
3. 골드만삭스를 비롯한 금융회사는 정보가 시카고에서 뉴저지로 이동하는 시간을 1000분의 4초 줄이고자 수천만 달러를 들여 광섬유 케이블접근권을 얻었다. 정보 흐름에 걸리는 시간을 줄이기 위해 수백만 달러를 쓰는 것이다.
하지만 미리 정보를 얻기 위해서 구글 데이터를 활용할 수도 있다. 정부가 설문 결과를 수잡하고 분석해서 데이터를 발표하는데 일주일이 걸리는데 이를 줄일 수 있다. 예를 들어 독감 정보를 빨리 얻기 위해선 '독감 증상'과 '근육통' 같은 검색어 지표를 보고 파악할 수 있다. 주택 가격이 오를 때 '주택 건축업자' 평가율' 같은 문구로 검색했고, 주택 가격이 떨어질 때는 '쇼트 세일 절차', '융제 구자'등을 검색한다.
4. 직관과 데이터가 다를 때도 많다. 예를 들어 사람들은 폭력적이고 파멸적인 이야기에 끌린다는 통념과 달리, 긍정적인 기사일수록 널리 전파될 가능성이 높았다.
5. 어떤 논문에 따르면 많은 개발도상국에서 기존의 국내총생산GDP을 측정하는 것이 비효율적이라고 했다. 경제 활동 대부분이 기록되지 않고, 경제 산출량을 측정해야 하는 정부 기관의 장원이 제한적이기 때문이다. 연구자들은 비전형적인 아이디어를 떠올렸다. 밤에 조명이 얼마나 많은지가 GDP 측정에 도움을 줄 수 있다고 생각한 것이다. 가난한 지역은 전기료를 내기 어렵기에 경제 상황이 나쁘면 밤에 전기 사용량이 극적으로 줄기 때문이다. => 현재 사용할 수 있는 새로운 유형의 모든 데이터를 활용하고 무엇이 데이터로 간주되는지 광범위한 시각으로 보는 것은 학자들은 물론 기업가들에게도 큰 가치를 지닌다. 현대 데이터 과학자들은 데이터를 보는 전통적인 관점에서 얽매여서는 안 된다.
6. 새로운 유형의 데이터를 제공한다는 점과 솔직한 데이터를 얻을 수 있다는 것이 빅데이터의 힘이다. 예를 들어 포르노 관련 질문에 대해서 사람들은 숨기거나 거짓으로 대답했지만, 구글이나 포르노 사이트의 검색 데이터는 익명성을 기반으로 새로운 데이터를 얻을 수 있다. 또한 작은 집단도 클로즈업해서 볼 수 있다는 점도 큰 장점이다.
7. 구글이 검색 분야에서 지배적인 위치에 오를 수 있었던 이유가 단순히 경쟁자들보다 많은 데이터를 수집했기 때문이 아니다. 그들은 더 나은 유형의 데이터를 찾음으로써 검색 분야의 지배자가 되었다. 예를 들면 '링크'는 다른 검색 엔진은 고려조차 해보지 않은 데이터였다.
예를 들어, '빌 클린턴'을 검색했을 때, 그와 관련된 더런운 농담이 담긴 사이트가 무작위로 등장했다. 당시 미국 대통령이었던 그 인물과 관령성 높은 정보를 찾기 쉽지 않았다. 하지만 빌클린턴을 구글에 검색하면, 그의 웹사이트와 백악관 이메일 주소, 인터넷에 존재하는 그의 전기들을 볼 수 있었다.
왜냐하면 구글은 링크를 분석했기 때문이다. 다른 검색 엔진은 사용자가 검색한 문구가 가장 많이 들어가는 웹사이트를 보여줬다. 반면 구글은 단어수를 세는 것보다 훨씬 더 가치가큰 새로운 유형의 정보를 기록하는 방법을 찾았다. 웹사이트들은 어떤 주제에 관해 이야기하면서 종종 그 주제를 이해하는 데 도움이 된다고 생각하는 사이트들을 링크해놓는다. 예를 들어 빌 클린턴을 언급한 뉴욕타임스 기사에 백악관 공식 웹사이트 링크를 걸어놓는 식이다.
8. 스스로에게 거짓말을 하고 있을 때에도 구글은 진실을 알 수 있다. 선거권을 행사하겠다고 말하고 다녀도, 투표 장소에 관한 정보를 검색해보지 않았다면 데이터 과학자들은 해당 지역의 투표율이 낮으리라 예상할 것이다.
9. 사람들이 '아이를 가진 것을 후회한다'라는 검색어에는 어떤 의미가 있을까? 때로 우리는 자기 검열 없는 생각을 구글에 입력한다. 도움을 받으리라는 큰 희망 없이 말이다. 이때 검색창은 일종의 고해실 역할을 한다.
10. 도대체 누가 여자아이에 대한 편견을 만들까? 바로 부모이다. 일반적으로 부모는 아들에 관해 질문할 때 긍정적인 단어를 사용할 가능성이 높아보인다. 그리고 아들보다 딸의 외모 걱정에 대한 검색어를 더 많이 입력한다.
11. 넷플릭스에는 보고 싶지만 당장은 시간이 없어서 못 보는 영화를 담아두는 칸이 있었다. 넷플릭스는 사용자들에게 여유 시간이 생길 때면 이 영화를 상기시켰다. 보통 다큐멘터리나 어려운 영화를 담았다. 며칠이 지나면 그들은 평소에 즐겨보는 코미디를 선택했다. 사람들은 끊임없이 스스로에게 거짓말을 한다. 이런 차이에 직면한 넷플릭스는 사람들에게 보고 싶은 영화를 말하라고 하지 않고 비슷한 고객들의 클릭수와 조회수를 기반으로 한 모델을 구축하기 시작했다. 이에 넷플릭스의 데이터 과학자는 '알고리즘은 당신보다 당신에 관해 더 잘 알고있다.'라고 말했다.
빅데이터는 진정한 인과관계를 찾아낼 수 있는 무작위 실험을 훨씬 더 쉽게 할 수 있게 해준다. (ex. ab테스트) 페이스북은 현재 하루에 ab테스트를 1,000건 진행한다.
문장 기록
구글 검색이 그토록 귀중한 이유는 데이터가 많아서가 아니다. 사람들이 솔직한 생각을 내놓기 때문이다.
조사 결과는 좋은 데이터 과학이 세상을 보는 시각을 어떻게 바꿀 수 있는지, 숫자가 얼마나 반직관적일 수 있는지를 다시 한번 입증해줬다. p51
데이터 과학자의 목표는 세상을 이해하는 것이다. 직관과 어긋나는 결과를 얻으면 우리는 데이터 과학을 이용해서 세상이 겉으로 보이는 것과 왜 다른지 설명한다. p55
현재 사용할 수 있는 새로운 유형의 모든 데이터를 활용하고 무엇이 데이터로 간주되는지 광범위한 시각으로 보는 것은 학자들은 물론 기업가들에게도 큰 가치를 지닌다. 현대 데이터 과학자들은 데이터를 보는 전통적인 관점에 얽매여서는 안 된다. p127
검색 데이터는 성난 사람들을 가르치려 하면 오히려 분노가 커질 수 있다고 암시한다. 하지만 사람들의 호기심을 교묘하게 건드리고 그들이 분노하는 집단이 가진 새로운 이미지를 제시하면 그들의 생각을 좀 더 긍정적인 방향으로 바꿀 수 있다. p191
데이터에는 이야기가 있다. p236
어떻게 하면 차원의 저주를 극복할 수 있을까? 자신의 연구에 대해 겸손해야 하고 자신이 찾아낸 결과와 사랑에 빠지지 말아야 한다. 결과에 대한 추가 실험을 실시해야 한다. p287
무엇인가 하고 싶다고 검색을 하는 사람이 많을수록 그 일을 실행하는 사람도 많아진다. p306
'독서' 카테고리의 다른 글
[책] 달까지 가자 (0) | 2022.08.28 |
---|---|
[원서] Can't Even - 요즘애들 (0) | 2022.07.07 |
[책] 지금의 나로 충분하다 (0) | 2022.05.09 |
[책] 좋은지 나쁜지 누가 아는가 (0) | 2022.03.30 |
[책] 서울 자가에 대기업 다니는 김 부장 이야기 1, 2권 (0) | 2022.03.08 |