본문 바로가기

    운영진 평가를 반영한 최종 결과는, 차주 (화)요일 공표예정입니다! 😊

      진행 중인 투표

      종료된 투표

      진행 중인 투표

      종료된 투표

      빈 제목

        팀블로그 멤버

        비멤버

        🔥앗뜨거 실시간🔥

        💬재잘재잘💬

        데이터 분석을 쉽게 하는 방법=>리스틀리를 이용한 기후데이터⛈️ 분석

        by 이승환 | UNIST | 도시환경공학과 | 삼성E&A 2024. 5. 25.
        본 커리큘럼은, 팔랑크스 클럽을 후원하는 실무자 후원회에서 작성/소유하고 있는 사유물로서,
        정식으로 팔랑크스 클럽(동아리)의 절차에 따라, 시즌을 등록한 크루 외에는 제공, 안내되지 않습니다.

        허가되지 않는 배포/재가공/캡처 등이 이루어질 시 관련 법령에 따라
        손해배상 및 저작권 침해 소송을 제기할 수 있으니, 각별히 유의 바랍니다.
        (본 사항은 법령 자문에 따라 '모두' 가 볼 수 있는 명시적 근거를 설립하는 과정임을 재명기합니다.)

        📍유닛명

        유닛코드:PXO-202, 선택형

         

        [실무기획 tool의 활용]리스틀리: 내가 보고 있는 화면의 데이터는?


         

        안녕하세요? 이번 주차에 재난안전 데이터를 활용한 해커톤 대회에 관한 공지를 올린 이승환 크루 입니다. 

         

         이번 해커톤 관련하여, 재난 안전 데이터 중 여름의 강수량과 관련된 기후 데이터를 리스틀리로 간단하게나마 분석해보는 시간을 가지고자 합니다. 그중에서도, 제가 이전에 군복무를 하면서 여름에 고생했던 경상북도 예천군(문경시)의 10년 강수량 데이터를 분석해보고자 합니다. 

         


        STEP 01 .   리스틀리는 어떻게 활용하는  tool인가요?

         

        리스틀리는 웹페이지에 있는 정보들을 스크래핑 해주는 확장 프로그램입니다. 

         

        저도 이전에 데이터 관련 수업을 들어서 크롤링, 파싱, 스크래핑에 대한 정의를 헷갈리고 있었는데요, 이번 기회에 정리를 해보고자 합니다. 

        크롤링 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위
        파싱 비구조화된 데이터 소스에서 관련 정보를 추출하고 쉽게 분석할 수 있는 구조화된 형식으로 변환하는 과정
        스크래핑 웹 페이지나 다른 프로그램 화면에서 데이터를 자동으로 추출하는 기법

         

        리스틀리가 수행해내는 작업은 스크래핑이나 파싱에 가까운 개념이라고 볼 수 있습니다. 

         

        01.1)리스틀리 설치 및 확장 프로그램으로 추가

        1)처음 웹사이트에 접속시, 크롬 확장 프로그램으로 추가 버튼을 눌러서 설치

        2)그 후 확장 프로그램 버튼을 누른 후 고정핀 버튼 누르면 리스틀리를 확장프로그램으로 사용 가능

         

        01.2)기상청 접속 후 강수량에 대한 정보 검색

         

        1)기상청 접속 



        2)기상청 사이트의 기상자료 개방 포털 접속

        3)다음과 같이 설정(경상북도 문경의 강수량, 월별, 2014-2010)



        4)리스틀리를 사용하여 엑셀로 추출

        5)엑셀로 추출해낸 결과물 예시 

         

        01.3)웹 스크래핑 데이터 분석

        -기상청 사이트에 이미 나와 있던 자료 이지만, LABEL-1은 지점, LABEL-2는 지점명, LABEL-3는 일시(년도/월), LABEL-4는 강수량, LABEL-5는 일 최다강수량,LABEL-6는 일 최다 강수량일자, LABEL-7은 1시간 최다 강수량, LABEL-8의 경우는 1시간 최다 강수량 일자 이렇게 대응 시킬 수 있습니다. 

         

        01.4)인싸이트

        -리스틀리를 사용하지 않고 옆의 CSV나 EXCEL로 다운 받기를 눌러도 다운 받을 수 있기에, 음…..이걸 왜 사용해야 하나 내가 이런 데이터를 선정한게 잘못된 건가 라는 생각이 들었습니다. 하지만 기상청 데이터 중에는 아래와 같이 CSV나 EXCEL로 추출 불가능한 것들도 있는데 위와 같은 데이터도 추출 가능하다는 것에서 의미를 두게 되었습니다. 

         


         

        STEP 02 .    나는 어떤 데이터를 수집하는 기획자인가요?

         

        가상 시나리오 1) 석사 졸업 후 기상청 사무관이 된 이승환

        여기서 설정된 상황은 현재 기상청 사무관이 되어서 기후와 재난에 대해서 연구하는 입장이 되었다. 

        더 구체적으로 설정한다면, 기상청에서 7월의 장마에 대해서 분석하는 연구원이다. 

         

        가상 시나리오 2) 

         

        현재 내가 데이터를 수집하고자 하는 목적은 다음과 같다.

        1) 현재 산사태에 관한 연구를 진행 중이다. 
        2) 현재 기후는 장마형에서 스콜형으로 바뀌고 있고 그런 기상 요소가 산사태에 미치는 영향을 분석해야 한다. 
        3) 따라서 과거의 강수량과 현재의 여름 강수량을비교해서 어떻게 변하는지 비교해야 한다.

         

        나의 가설은 이렇다.
        하루마다 강수량이 바뀌는 우기형의 스콜형의 강수로 인해 과거보다 현재가 산사태에 더 취약하다. 고로, 2024년에 가까워질수록 짧은 기간에 많이 내리는 비가 아닌, 긴 기간을 두고 비가 내려야 한다. 그러므로, 6-8월의 강수량 차가 24년이 될 수록 적어져야 한다



        가상 시나리오 3)

         

        그러므로 6-8월의 강수량 데이터와 일 최다 강수량 데이트를 추출추세선을 그릴 것이다. 추세선의 기울기는 24년에 가까워질수록 작아질 것이다. 

         


         

        STEP 03 .  이  데이터들은 어떻게 활용할 수 있나요?

        3-1)내가 활용할 데이터는?

        위에서 여러개의 데이터를 언급했지만, 제가 사용해야 할것은 ‘일 최다 강수량’과 ‘강수량’, 그리고 ‘년도+월’입니다. 따라서 그 3개의 데이터만 남겨야 합니다.

         

        3-2)나의 데이터 활용법

        먼저, 파란색으로 표시된 라벨에 필터를 넣었습니다. 

        그후 자동 필터를 택해 07월과 08월의 데이터만 남겼습니다.

        그 후 컨트롤 키로 일시와 강수량을 택한 후 막대형 그래프를 만든 후, 추세선 요소를 추가하였습니다. 

        3-3)나의 데이터 시각화

        문경시의 10년간 7월-8월 강수량의 그래프를 그린 결과, 지난해 폭우가 닥쳐왔건 23년 7월의 강수량 그래프가 유독 높다는 것을 알 수 있습니다. 그리고 당시의 이상 기루 덕에 22년에서 23년 사이의 이동평균 추세선의 기울기가 높다는 것을 알 수 있습니다. 뚜렷한 상승세라고 보긴 힘들지만, 14년대에 비해 20년도 이후에는 문경시에 7-8월 강수량이 많아졌다는 것을 확인 가능합니다.


         

        ⭐️기획자로서,

        제 학과와 연관 있는 강수량 데이터를 분석하여, 어떤 추세를 그리고 있는지 확인하였습니다. 


        데이터 분석을 쉽게 하는 방법=>리스틀리를 이용한 기후 데이터⛈️ 분석

        _끝.



        댓글

        최신글 전체

        이미지
        제목
        글쓴이
        등록일