어떤 비재무 데이터를 결합해 휴폐업을 예측할 수 있을까에 대해 많이 고민했다.
주어진 데이터를 EDA하기보다 데이터에 결합할 수 있는 외부데이터를 찾는 것이 더 중요하다는 생각이 들어 주제를 먼저 잡고 관련 비재무 데이터를 찾는 것에 집중하였다.
이것 저것 관련 논문들도 읽어보고 구글링도 많이 해봤다.
그 결과, 두가지의 주제를 생각해보았다.
고성장 중소기업 분류하여 휴폐업 예측하기
주제선정배경
코로나 19 팬데믹 시대가 끝나가고 빠른 경기반등으로 인해 경제성장, 일자리 창출 등이 중요한 이슈로 떠오르고 있다.
이러한 가운데 경제성장과 일자리 창출에 기여도가 큰 고성장기업에 대한 관심이 다시금 커지고 있다. (이병문, 이혁, 오승환(2022) "고성장기업의 혁신활동 및 혁신성과에 관한 연구: 국내 제조기업을 대상으로" 『한국혁신학회지』)
국가 경제 발전의 주체 역할을 담당하고 있는 고성장기업을 신용 점수 평가에 반영한다면 현 상황을 잘 내포할 수 있을 것이라 생각하여 이 주제를 선정하게 되었다.
매출성장성과 고용성장성을 이용하여 고성장 중소기업을 도출하는 것을 하나의 방안으로 생각해보았다.
고성장 중소기업이라면 신용점수가 높고 휴폐업 가능성이 낮지 않을까 라는 생각이 들었고 이 과제를 통해 증명해보고 싶었기 때문이다.
외부 데이터 사용 계획
해당 주제에 필요한 데이터를 불러오기 위해 다음과 같은 웹페이지를 사용하였다.
- 통합 데이터지도
이용 가능한 공공데이터들의 목록들이 한 곳에 모아져 있다.
이 곳에서 이번 주제와 매우 유관한 사이트를 하나 발견하였다.
- 중소 중견기업을 위한 빅데이터 플랫폼
중소·중견기업을 위한 빅데이터 플랫폼
기업과 산업의 다양한 데이터를 개방하고 활용하여, 기업의 혁신 성장과 산업 생태계를 창출하는 융합 가치를 제공합니다.
dataportal.wehago.com
중소, 중견기업 관련 빅데이터 플랫폼이다.
이 곳에서 고용성장률을 구할 수 있는 데이터를 찾게 되었다.
바로, NICE평가정보에서 제공하는 국민연금정보 라는 데이터이다.
일단 고용성장률을 구할 수 있는 데이터지만
해당 api를 파이썬으로 가져오는 것에서 또한번 벽에 부딪혔다.
한번에 500개의 행, 하루에 100번을 호출할 수 있는 데이터이다.
위 데이터는 총 1,810,363행으로 이루어져 있으며 하루에 50000건씩 호출한다고 하면 데이터 불러오는대만 약 한달이 넘게 소요된다.
만약 위 주제로 계속 진행해도 괜찮다면 팀원과 함께 데이터를 분할해서 보름동안 데이터를 가져오는 작업을 실시하려 한다.
또한 다음과 같은 우려 사항이 있다.
- 위 자료와 같이 4년 동안의 성장률을 도출하기엔, 4년 미만의 신생기업과 4년 미만의 유지기간 후 폐업한 기업의 성장률을 계산하지 못한다는 한계점이 있다.
- 1번과 같은 문제점으로, 기준을 4년이 아닌 1~2년으로 설정하고자 하여도 그 기준이 타당하다는 근거를 찾기 어렵다.
- 나이스평가정보에서 분류하는 기업코드(KISCODE)의 정확한 명칭을 파악해야한다.
- 무엇보다도 주제의 창의성이 떨어진다는 점이 가장 큰 문제점이다.
데이터를 불러온 후 다음과 같이 진행할 예정이다.
1. 고성장기업인지 아닌지 1차적으로 분류한 후, 고성장기업과 일반기업에 각자 다른 휴폐업 예측 모형(재무데이터로만)을 적용하는 방법
2. 전체 기업들을 대상으로 고성장기업 분류 기준의 성장률을 하나의 설명변수로 두고 휴폐업 예측 모형을 구축하는 방법
기업별 네이버뉴스기사에 등장하는 단어들로 휴폐업 예측하기
분석주제 선정 배경
기업의 부도 위험은 재무정보로도 알 수 있지만 빠르게 파악하기 어렵다는 문제점이 있다. 매일 업데이트 되는 뉴스기사나 sns정보들을 통해 기업의 상황을 빠르게 알 수 있을 것이라 생각하였고, 신뢰성이 높고 정확한 정보인 뉴스기사로 텍스트 마이닝 하기로 결정하였다.
계획한 분석 프로세스는 두가지이며 다음과 같다.
1. 폐업 기업의 폐업시점 전의 기사와 액티브 기업의 기사 내용들을 크롤링하여 단어 빈도수 차이를 분석하고 빈도수의 차이가 큰 단어들과 부도와의 연관성을 분석한다. 이를 통해 폐업을 예견하는 특징이 있는 단어들을 선별한 후, 외감 기업 기사들 중 해당 단어가 많이 포함된 기업들에게 패널티를 주는 방법을 생각해 보았다.
2. 6개월 이전의 기사를 크롤링한 내용에 {'부도', '액티브'}의 클래스를 부여한 후, AI를 활용하여 텍스트 주제 분류를 학습한 뒤 각 클래스별 확률을 구한다. 이 확률을 설명변수로 사용하는 방법을 생각해 보았다.
폐업 기업의 폐업시점 전의 기사와 액티브 기업의 기사 내용들을 크롤링하여 단어 빈도수 차이를 분석하고 빈도수의 차이가 큰 단어들과 부도와의 연관성을 분석한다.
이를 통해 폐업을 예견하는 특징이 있는 단어들을 선별한 후, 외감 기업 기사들 중 해당 단어가 많이 포함된 기업들에게 패널티를 주는 방법을 생각해 보았다.
구체적인 코드 작성에 앞서, 주어진 데이터에서 몇 개의 기업들만 랜덤으로 뽑아 네이버 기사 현황을 살펴보았다.
위와 같이, 기업명과 동일한 단어는 기업 관련 뉴스보다 다른 주제의 뉴스가 나타난다.
대표자 이름을 함께 검색하면 아예 뉴스가 없는 상황이 나타난다.
이와 같은 문제로, 분석 프로세스를 더 진행할 수 없었고 이와 같은 경우에는 결측값으로 설정해야 하는지 고민이 많다.
폐업기업과 소규모기업의 뉴스기사 부재 문제가 해결된다면 더 구체적인 프로세스를 계획해볼 예정이다.
'인공지능프로젝트' 카테고리의 다른 글
[LG Aimers] 2기 후기 (수료, 해커톤) (3) | 2023.04.27 |
---|---|
[교육] LG Aimers 시작 (0) | 2023.01.02 |