728x90
SMALL
IT스토리-매뉴얼 없는 사회, IT는 예외인가?
2014년 대한민국의 봄은 잔인했습니다. 4월 16일은 대한민국의 모든 사람들이 두고두고 잊지 말아야 할 날짜가 되었습니다. 그리고 깊은 반성과 함께 참회를 해야 합니다.
세월호 참사를 두고 온갖 이야기들이 나왔습니다. 그런 이야기들 중에 이번 사고의 원인이 체계적인 재난 대응 매뉴얼의 부재가 만들어낸 비극이라는 주장도 있었습니다. 국가 중앙 부처에서부터 현장 부서까지, 그리고 민간 해운회사도 마찬가지로 재난 발생 시 대처를 위한 매뉴얼이 없었고, 설령 있었다고 해도 체계적이지 않아 재난 대응에 전혀 도움이 되지 않았다는 것입니다.
사고는 언제든지 일어날 수 있습니다. 아무리 철저한 예방 조치를 취한다고 해도 사고를 100% 막을 수는 없을지도 모릅니다. 그러나 그런 만큼 더욱더 사고 발생에 대비한 매뉴얼이 중요한 것입니다.
그렇다면 IT 분야의 사정은 어떨까? IT 분야가 사회의 기본 인프라가 된 상황에 IT 시스템 위기 대응능력은 매우 중요합니다.
오늘날 기업은 물론 사회 기반시설, 금융, 미디어, 공공분야를 불문하고 모든 영역에서 IT는 기본 인프라입니다. IT 인프라에 장애가 발생해 사회 전반에 적지 않은 영향을 준 사례가 그동안 여러 번 있었습니다. 이동통신 전화가 일정 시간 통화 불능이 되기도 하고, 다량의 개인정보가 유출되기도 했으며, 온라인 금융 서비스가 중단되기도 했습니다. 이런 일련의 사고 발생 시 IT 분야는 잘 준비된 매뉴얼에 따라 체계적인 대응을 했을까? 정보시스템 관련 사고는 사회적인 관심을 크게 끌 만한 인명피해가 발생하지 않아서, 국민들이 부실한 대응을 모르고 있는 게 아닐까?
솔직히 말하자면 우리 역시 기업의 정보시스템 운영을 담당하고 있지만 발생 가능한 사고나 재해에 대한 체계적인 매뉴얼을 제대로 갖추고 있는가 돌아보면 부끄러운 생각이 듭니다.
물론 기술적으로 재해복구 시스템을 구축하고 있으며 정기적으로 재해복구 훈련을 실시하고 있습니다. 하지만 발생 가능한 다양한 사고에 대한 대응 매뉴얼이 체계적으로 갖춰져 있거나 이 모든 것들에 대해 정기적인 점검과 업데이트가 이루어지고 있는 것은 아닙니다.
그렇다면 왜 체계적인 매뉴얼 준비와 정기적인 점검이 잘 안되는 것일까? 언젠가 이런 글을 읽은 적이 있습니다. 만약 9·11 테러가 나기 전에 누군가가 그런 테러의 위험성을 경고하고 항공기 보안 규정과 절차를 대폭 강화해야 한다고 했다면 과연 받아들여졌을까? 그러고 만약 이 주장이 받아들여져서 강화된 규정에 의해 항공기 운항이 이루어지고, 그 결과 테러가 사전에 예방되었다면 규정 강화를 추진한 주인공은 칭찬을 받았을까? 아니면 쓸데없이 불편하게 만들었다는 비난을 받았을까?
아마도 사고가 발생하지 않았기에 주인공은 공로를 인정받기 어려웠을 것이며 때로는 비난을 받기도 했을 것입니다. 이런 점이 매뉴얼의 체계적인 작성 및 관리, 그리고 매뉴얼을 철저하게 따르는 업무 운영을 어렵게 만드는 이유라고 생각합니다. 이처럼 매뉴얼의 중심의 업무수행은 말처러 쉬운 일이 아닙니다. 또한 경영진의 이해와 지원이 반드시 필요합니다.
하지만 이제는 더 이상 이런저런 핑게로 예전처럼 대충대충 할 수는 없습니다. 사회 모든 분야에 걸쳐 사고와 재난에 대비한 철저한 사전 준비와 대응이 필요합니다. 그리고 사고의 발생을 100% 막을 수 없다면 사고에 대한 대응 매뉴얼이 최신의 상태로 관리되고 실전에서 사용될 수 있도록 해야 합니다. IT 분야도 그래야 할 것입니다. 그렇다면 IT분야에서는 어떤 점들을 개선해야 할까?
위기 대응능력을 키우려면 IT 운영의 최우선이 비용 절감이어서는 안 됩니다. 우선 IT 운영에서 비용절감이 모든 것의 중심이 되어서는 안 됩니다. 물론 비용 절감과 운영 효율 제고는 중요한 문제입니다. 하지만 시스템 운영은 사람이 하는 것이므로 운영 인력의 사명감과 책임감이 중요합니다. 그런데 최근 운영 인력의 구성을 보면 계약직 비중이 높은 편입니다. 실제 이런 계약직 인력의 높은 비중은 때로 시스템 사고의 한 원인이 되기도 합니다. 시스템 운영시 매뉴얼을 각 예상 영역별로 체계적으로 작성하고 정해진 원칙에 따라 업무를 수행하기 위해 담당자는 추가로 많은 노력을 해야 합니다.
그렇기에 운영 담당자의 책임감과 사명감이 중요합니다. 그렇지 않을 경우 비록 매뉴얼과 프로세스를 체계적으로 갖추어도 이에 따른 운영을 지속하기 어렵습니다. 수시로 인력이 바뀌는 상황도 대응을 어렵게 하기는 마찬가지입니다. 운영 인력의 이런 문제점을 개선하자면 운영 비용이 상승할 수 있습니다. 그렇기 때문에 경영진의 이행 와 지원이 필수적인 것입니다.
그리고 운영 조직은 시스템 운영 및 개발시 체계적인 문서화에 대한 훈련과 노력이 이루어져야 합니다. 우리나라의 IT 문화, 특히 정보시스템 개발 문화에서 문서화는 매우 취약한 영역입니다.
SI(System Integration, 기업에 필요한 정보시스템을 기획·개발·설치·운영하는 종합서비스) 프로젝트 수행시 문서화 작업의 중요성에 대해 강조하지만 정작 제대로 지켜지는 경우는 드뭅니다.
시스템 개발 시에도 이런데 시스템을 운영할 때 이루어지는 많은 변경 및 개선 작업들에 대한 문서화는 더 열악한 형편입니다. 문서화가 제대로 되지 않으면 장애나 사고가 발생했을 때 원인을 찾아 즉시 대응하기가 어려워집니다. 이 문제가 역시 문서화를 위한 담당자의 노력과 함께 비용절감이 관련되어 있습니다. 짧은 개발 기간과 과중한 업무 등의 문제가 함께 해결되어야 합니다.
마지막으로 하인리히 법칙이 이야기해주듯 시스템 장애나 사고는 사실 예고 없이 일어나지 않습니다. 시스템 운영시 발생하는 이상 징후들을 체계적으로 기록하고 이를 종합적으로 모니터링하는 프로세스를 가지고 있어야 할 것입니다. 그리고 이를 위한 표준 프로세스 및 매뉴얼 역시 준비해야 합니다.
안전은 공짜로 얻어지는 게 아닙니다. 앞으로도 대한민국 사회의 모든 판단의 기준이 경제성과 비용 절감, 효율성의 향상으로 귀결된다면, 결코 매뉴얼과 원칙 준수를 기반으로 한 우영과 체계적인 사고 대응능력은 갖추기 어려울 것입니다. 왜냐하면 앞서 언급한 가상의 사례에서와 같이 이러한 체계적인 대응과 관련된 일련의 대응 노력은 사고가 나지 않으면 모든 관련 투자가 헛된 비용으로 경영진에게 인지될 수 있기 때문입니다.
하지만 참담한 참사를 겪고서도 비용 절감과 효율성만을 최고의 가치로 여기고 안전을 위한 비용의 지출을 꺼린다면 사고를 예방하기도 어려울 뿐만 아니라 또 다른 대형 사고가 발생했을 때 체계적인 대응이 되지 않아 우왕좌왕할 수밖에 없을 것입니다. 이는 IT 시스템 운영 분야라고 예외일 수 없습니다.
하인리히 법칙 : 1931년 허버트 하인리히(Herbert William Heinrich)가 자신의 책에서 소개한 법칙이다. 업무 성격상 수많은 사고를 접했던 하인리히는 산업재해 사례 분석을 통해 대형사고가 발생하기 전에 그와 관련된 경미한 사고가 있었음을 발견했습니다. 산업재해가 발생해 사망가가 1명 나오면 그전에 같은 원인으로 발생한 경상자가 29명, 같은 원인으로 부상을 당할 뻔한 잠재적 부상자가 300명 있었다는 것입니다. 그래서 1:29:300 법칙이라고도 부릅니다. 즉 큰 재해와 작은 재해, 그리고 사소한 사고의 발생 비율이 1:29:300이라는 것입니다. 큰 사고는 우연히 또는 어느 순간 갑자기 발생하는 게 아니라 그 이전에 반드시 경미한 사고들이 반복되는 과정 속에서 발생한다는 것을 실증적으로 밝힌 것으로, 큰 재해는 사소한 것들을 방치할 때 발생한다는 것을 보여줍니다.
728x90
LIST
'IT STORY' 카테고리의 다른 글
IT 스토리 컴퓨터 이야기 (0) | 2021.10.29 |
---|---|
IT스토리-다시 IT 분야에 봄이 오는가? (0) | 2021.10.28 |
IT스토리-IT기술의 발전이 가져온 몰락 (0) | 2021.10.24 |
IT 스토리-한글 워드프로세서와 오픈도큐멘트(ODT) (0) | 2021.10.23 |
IT 이야기-공유경제서비스,생존권 침해 (0) | 2021.10.21 |