우리나라 스트릿댄스 33년 트렌드 bigdata 분석 ft.길다길어

최근에 빅데이터 논문들을 살펴보고 있다. 내가 박사 논문을 앞두고 있기 때문이다.

혼자서 보기엔 좀 아깝기도 하고 스스로 공부하는 겸해서 글을 써본다.

이 글은 아래 나온 논문을 바탕으로 작성하였다.

되도록이면 초보자들도 이해하기 쉽게 쓰려고 노력했지만,

내가 공부하는 용도로 쓰는 것이기 때문에 처음 보는 사람들은 다소 이해하기 어려울 수 있다.

결론이 궁금한 사람은 하단에 결론 부분만 보면 되겠다.

이번 글은 위의 학술지 자료를 정리한 것이다.

텍스트 마이닝은 텍스트가 있는 곳이라면 어떤 곳이든지 적용할 수가 있으며,

전문가들이 본인들의 VIEW를 가지고 분석하는 것과 다르게,

전처리를 통해서 의미 있는 단어들을 가지고 분석하는 데 의의가 있다고 할 수 있다.

본 논문에서도 약 7년동안 텍스트를 이용한 분석이 활발하게 이뤄지고 있다고 했으며,

따라서 저자는 30년간의 스트릿댄스 역사를 정리하는 paper를 작성했다.

연구 문제와 텍스트마이닝 분석방법

항상 이런 데이터 수집이 문제가 되는데, 여기에서는 RISS 와 빅카인즈를 통해서 분석을 했다

RISS는 학술적인 논문들이 모여 있는 곳이고,

빅카인즈 사이트는 뉴스기사를 한 눈에 보기 쉽게 제공하는 사이트이다.

단어라는 게 시대에 따라서 단어가 바뀌기도 하는데

나는 이를 느꼈던 것이 프로야구의 스프링캠프 라는 단어였다.

과거에는 춘계훈련 으로 보도가 많이 되었고 최근에는 스프링캠프 라는 단어가 익숙하다.

https://www.imaeil.com/page/view/1994120100373409402

첫번째로 논문은 총 198개의 학위논문과 학술지 논문 자료를 수집하였다.

두번째로 기사는 총 16,853건의 기사가 수집되었다.

하지만 기사는 정형화된 양식이 없는 것이기 때문에 고민을 하면서 수집을 해야 한다.

여기에서도 스트리트댄스, 스트릿댄스 2개의 단어로 검색해서 결과를 뽑아냈으며

그 결과를 총 90년대, 00년대, 10년대, 20년대 이렇게 4개의 구간으로 나눠서 분석을 실시하였다.

20년대가 3개년도 밖에 안되는 건 아쉬운 부분이다.

8개 유형의 스트릿 댄스가 있다.

이제 자료처리의 시간이다

여기에서 현타가 오고 시간이 가장 많이 걸린다.

데이터 분석이라는 것이 객관적으로 보일 수 있을지 모르겠으나,

배경지식이 상당히 중요한 것이 특징이다.

쉽게 말해서 "배송" 이라는 단어를 보고, 이게 배송이 빨라서 좋다는 것인지

아니면 배송이 배번 늦어서 불만이라는 것인지 행간의 의미를 읽어야 하는 것이다.

여기에서도 스트릿댄서 박사급 전문가 3명이 불용어 사전을 만들었다고 한다.


불용어사전이 무엇일까?

불용어사전은 텍스트 분석에서 중요한 역할을 하는 도구이다. 이는 글에서 자주 사용되지만 실질적인 의미 전달에 크게 기여하지 않는 단어들을 모아놓은 목록을 말합니다. "그리고", "하지만", "너무"와 같은 단어들이 대표적인 예시입니다. 이런 단어들은 문장 구조를 위해 필요하지만, 텍스트의 핵심 내용을 파악하는 데에는 큰 도움이 되지 않습니다. 불용어사전의 주요 목적은 텍스트 분석 과정에서 이러한 불필요한 단어들을 제거하여 분석의 효율성과 정확성을 높이는 것입니다. 특히 컴퓨터를 이용한 자연어 처리나 정보 검색 분야에서 데이터 전처리 단계에 활용됩니다. 불용어를 제거함으로써 텍스트의 본질적인 의미에 더 집중할 수 있게 되어, 결과적으로 더 정확하고 의미 있는 분석이 가능해집니다. 즉, 불용어사전은 방대한 텍스트 데이터에서 중요한 정보를 효과적으로 추출하고 분석하는 데 도움을 주는 중요한 도구라고 할 수 있다.


시대별 불용어사전

이제 분석 방법을 선택할 차례이다.

처음에 나오는 것이 counter 모듈을 가지고 빈도 분석을 진행하는 것이다.

그 예시를 보겠다.

from collections import Counter text = "안녕하세요. 여러분. 오늘은 Python의 Counter 모듈을 사용하여 빈도 분석을 해보겠습니다. Python은 매우 유용한 프로그래밍 언어입니다." # 먼저, 문자열을 공백 기준으로 나눠서 단어 목록을 만듭니다. words = text.split() # Counter를 사용하여 각 단어의 빈도를 계산합니다. word_counts = Counter(words) # 결과 출력 print(word_counts) # 먼저, 문자열을 공백 기준으로 나눠서 단어 목록을 만듭니다. words = text.split() # Counter를 사용하여 각 단어의 빈도를 계산합니다. word_counts = Counter(words) # 결과 출력 print(word_counts) Counter({'Python의': 1, 'Counter': 1, '모듈을': 1, '사용하여': 1, '빈도': 1, '분석을': 1, '해보겠습니다.': 1, 'Python은': 1, '매우': 1, '유용한': 1, '프로그래밍': 1, '언어입니다.': 1}) top_3_words = word_counts.most_common(3) print(top_3_words) print(word_counts["Python의"]) # "Python의" 단어의 빈도 출력

전처리가 제대로 되지 않았지만, 그 의미는 단어를 count 해서 얼마나 자주 나타내는지 보겠다는 것이다.

이런 분석 기법을 쓴다고 적혀있다.

그리고 이를 워드클라우드를 통해서 시각화를 하였다.

사실 워드클라우드는 데이터 해석으로 봤을 때 큰 사시점은 주지 못한다.

워드클라우드 예시

그리고 관계도 분석을 하였는데, 아무래도 데이터가 많다보니까

상위 100건의 뉴스 본문의 형태소만 분석하였다.

개체명(Named Entity)은 사람이름, 조직명, 지명 등과 같이 특정 개체를 나타내는 명사를 의미한다.

이 과정에서는 Structured SVM이라는 알고리즘을 사용하여 추출된 명사 상당 어구 중에서 어떤 것들이 실제 개체명을 나타내는지를 분석한다.

Structured SVM은 전통적인 SVM의 확장 버전으로, 복잡한 출력 구조를 다루는 데 특화된 기계학습 알고리즘이다. 일반 SVM이 단일 레이블 분류에 주로 사용되는 반면, Structured SVM은 여러 요소가 서로 연관된 복잡한 예측 작업에 적합하다

이 방법은 다음과 같은 특징을 가진다

* 순차 데이터 처리: 시간적 순서나 공간적 배열이 중요한 데이터를 다룸

* 문맥 고려: 개별 요소뿐만 아니라 전체적인 맥락을 함께 분석

* 다중 요소 예측: 여러 관련 요소를 동시에 예측 가능

* 구조적 관계 학습: 출력 레이블 간의 의존성과 관계를 모델에 반영

Structured SVM의 주요 응용 분야로는 자연어 처리의 개체명 인식, 음성 인식 시스템, 생물정보학의 단백질 구조 예측 등이 있다. 이러한 분야에서 Structured SVM은 데이터의 복잡한 패턴과 구조를 포착하여 더 정확하고 일관된 예측을 제공한다.

분석결과

총 198건의 학술지와 학위 논문에서 자주 나타난 단어들

아무래도 스트릿댄스 교육 초창기라서 아래 단어들이 많이 나왔음을 알 수 있다

연구 주제: '스트리트댄스' 및 '스트릿댄스'의 시대별 분석

시기 구분:

1990년대 (1990-1999)

2000년대 (2000-2009)

2010년대 (2010-2019)

2020년대 초반 (2020-2022)

한국 스트릿댄스 스타일 분류에 따른 핵심 용어 연구

각 장르별로 관계도 및 상위 10개 핵심단어들을 추렸다.

결론

본 연구는 스트릿댄스의 정량적 기초자료를 제공하기 위해 텍스트마이닝을 활용한 빅데이터 분석을 실시했다. 1990년부터 2022년까지 33년간의 스트릿댄스 관련 연구 논문 198건과 뉴스 기사 보도자료 18,146건을 수집하여 파이썬과 빅카인즈로 전처리 및 분석을 진행했다.

연구 결과는 다음과 같다:

1. 국내 스트릿댄스 연구의 주요 키워드로 '교육', '인식', '스트릿댄스', '무용', '전공' 등이 도출되었다. 이는 스트릿댄스가 제도권 내에서 자리잡으면서 교육 연구와 사회적 인식 변화에 대한 연구가 활발히 이루어졌음을 시사했다.

2. 시대별 분석 결과:

- 1990년대: 길거리 행사와 댄스 가수 중심의 활동이 두드러졌다.

- 2000년대: 지역 축제와 대회 중심의 활동이 증가했다.

- 2010년대: 한국의 문화예술로 자리잡고 국제적 성과를 거두기 시작했다.

- 2020년대: TV 댄스 프로그램을 통해 스트릿댄서들의 대중적 인지도가 급상승했다.

3. 스트릿댄스 유형별 동향:

- 미디어 노출도가 높은 유형일수록 대중적 이미지가 강했다.

- 대중가수들의 활동이 관련 키워드 확산에 기여했다.

- 스트릿댄스가 청소년 문화와 밀접한 연관성을 보였다.

- 비보잉이 가장 높은 빈도로 나타나 스트릿댄스 인식의 중심 역할을 했다.

결론적으로, 스트릿댄스는 33년간 '문화예술'로서 지속적인 성장을 이뤘다. 다양한 장르가 청소년 문화와 결합하여 대회, 공연, 행사, 축제 등을 통해 대중과 소통했으며, 현재 스트릿댄서들은 대중적 스타로 인식되고 있다. 이 과정에서 연구자들은 스트릿댄서들의 교육과 사회적 인식 개선에 주목하며 그들의 문화적 성장을 지원하는 역할을 했다.

네이버 블로그 원문 보기