#Project_DJ / MD1 : 웹 스크래퍼

Previously on the #Project_DJ

#Project_DJ를 시작하다

<Data Journalism and Visualization with Free Tools>는 자체 제작된 짧은 동영상 강의와 외부에서 가져온 유용한 읽을거리를 제공한다. 모듈1부터 6까지 총 6단계로 구성돼 있는데 각 모듈이 열리기 전까지는 해당 모듈 내 자료를 볼 수 없다. 타임라인에 맞춰 진행할 수밖에 없는 시스템. 각 모듈 끝에는 퀴즈와 과제가 있다.

영어로 제공되는 코스여서 제공되는 모든 자료와 데이터 셋이 영어권에 초점이 맞춰져 있는게 아쉽지만, 뭐 어쩌겠나 ... 😥

각설하고,

모듈1 내용을 정리해둔다.

[데이터를 찾기 위해 유용한 사이트들]

무료 데이터 시각화 사이트 : Flourish
데이터셋 다운로드 사이트 : 갭마인더
구글에서 공식 데이터셋 찾기 : 구글 데이터셋 서치

구글이 데이터셋 검색 서비스를 집중적으로 제공하기 위해 비교적 최근 개설

구글에서 공공 데이터셋 찾기 : 구글 퍼블릭 데이터 익스플로러

시각화 서비스까지 제공
=importhtml로 구글 스프레드 시트에 데이터를 불러오면, 해당 데이터를 가져온 페이지에서 데이터 업데이트가 일어날 경우 스프레드 시트에서도 자동 업데이트가 된다.

[보도를 위한 웹스크래핑]

웹에서 대규모 데이터를 수집할 때 웹 스크래퍼, 일명 '봇'을 사용한다.
크롬 익스텐션 'Web Scraper'를 설치해 간편하게 할 수 있다.
봇을 사용할 때 해당 방법이 윤리적으로 옳은 지 고민해야 한다.
불법적인 방법으로 데이터를 수집할 수 없다.
이는 저널리스트 뿐만 아니라 저널리스트 대신 자동으로 자료를 수집하는 '봇'에게도 적용된다는 의견이 있다.
하지만 이 의견에 모든 저널리스트가 동의하는 것은 아니다. 일례로 Philippe Gohier는 자신을 비식별화하기 위해 모든 방법을 동원한다고 한다.
중론은 봇을 사용할 때에도 코드를 통해 자신의 신분을 밝히는 게 가장 좋은 방법이라는 것.
데이터 스크랩을 위해 사용한 '코드'를 투명하게 공개하는 것도 중요하다.
봇을 제작하기 위해 직접 코드를 짜기 전에 API가 있는지 먼저 확인하면 시간을 절약할 수 있다.
for the further study : Scraping for Journalists

[관심 있게 볼 뉴스룸]

최근 <The Markup>이라는 뉴욕 기반 온라인 뉴스룸이 론칭했다. 데이터 기반 보도를 전문으로 한다.

[Quiz]

Ryu Han

#Project_DJ / MD1 : 웹 스크래퍼

Posted by Ryu Han

0 Comments

Post a Comment

Contact Form