본문 바로가기

AI (인공지능)

AI 시대, 데이터는 왜 중요할까? 인공지능의 밥: 데이터!

반응형

 

 

 

 

 

 

안녕하세요!

D.U.T입니다!

방문 및 클릭해 주셔서 감사합니다!

 

 

방문해 주시는 모든 분들에게 항상 도움이 되는 정보를 제공하도록 노력하겠습니다.

 

 

포스팅 제목은 AI 시대, 데이터는 왜 중요할까? 인공지능의 밥:데이터! 입니다.

제목은 거창하지만 실속 없는 포스팅일 수도 있으니 참고해 주시기 바랍니다.

공부한 내용을 정리한 포스팅입니다. 

 

 


 

 

이전 포스팅에서 ChatGPT 때문에 AI(인공지능)에 관심을 가지게 되었다고 말씀드린 적이 있습니다. 

그 이후에 계속 관심을 가지려고 노력했지만, 귀찮니즘으로 외면하고 있었습니다. 

 

 

다시 조금 관심이 생겨서 공부를 조금 해봤습니다.

 

유튜브로 AI 관련 강의를 보다가 흥미로운 내용을 발견했습니다. 

 

 

데이터를 보면 AI가 보인다!

 

 

데이터를 보면 AI가 보인다? 무슨 말일까요? 

궁금증이 생겨서 찾아봤습니다. 

 

먼저 잊어버리고 있었던 인공지능 활용의 기술적 영역부터 다시 상기해 봤습니다.

 

 

( AI 활용의 기술적 영역 )

 

인공지능(AI) 안에 머신 러닝(Machine Learning)이 있고, 머신 러닝 안에 딥 러닝(Deep Learning)이 있습니다. 추가로 짧게 설명드리면 모두가 알고 있는 챗GPT는 딥 러닝으로 자연어처리 기술을 뽑아낸 것입니다. 

 

그러면 인공지능(AI) 안에 머신 러닝과 딥 러닝의 차이점은 무엇일까요?

 

 

 

머신 러닝(Machine Learning) vs. 딥 러닝(Deep Learning) 차이는?

( 머신 러닝과 딥 러닝 비교 )

 

머신 러닝(Machine Learning)은 인공지능을 만들기 위해 컴퓨터를 학습시키는 방법입니다. 

즉, 컴퓨터에 직접적으로 프로그래밍하지 않고 경험으로부터 배우고 개선하도록 가르치는 방법입니다.

 

딥 러닝(Deep Learning)은 머신 러닝의 하위 개념입니다. 딥 러닝은 신경회로망(Neural Network) 구조를 활용하여 만들었습니다. 인공 신경망을 사용하여 인간의 뇌를 모방하는 머신 러닝의 한 종류입니다.

신경회로망은 복잡한 패턴을 이해할 수 있는 상호 연결된 "뉴런" 층으로 구성되어 있습니다. 컴퓨터가 이미지의 물체를 인식하거나 자연어를 이해하고, 더 복잡한 문제를 학습하고 해결할 수 있습니다.

종합해 보면, 위에 모든 것을 학습하기 위한 알고리즘을 딥 러닝(심층 학습)입니다.

 

 

 

★ 데이터 특징 추출 이슈!

머신 러닝과 딥 러닝의 개념을 살펴보면 필요한 것이 있습니다. 눈치채셨겠지만, 바로 데이터!입니다. 

즉, 입력에 데이터를 어떻게 넣느냐에 따라 인공지능 성능이 달라집니다. 다만, 인공지능에 넣는 데이터의 수가 적게 넣느냐, 많이 넣느냐에 따라 문제가 생겼습니다.

 

1. 과적합(Over-fitting) 문제

데이터의 숫자가 너무 적으면 과적합 문제가 있습니다. 과적합 문제를 사람을 비유해서 설명드리겠습니다. 

우리가 시험을 준비하기 위해 연습 문제를 가지고 공부한다고 상상해 보십시오. 만약 우리가 근본적인 개념을 이해하지 않고 그 질문들에 대한 정확한 답을 외운다면, 우리는 연습 문제를 잘 풀 수 있습니다. 하지만, 우리가 새로운 시험 문제에 직면할 때, 우리가 암기한 내용 이외에 다른 문제에는 응용 능력이 부족할 수 있습니다.

즉, 인공지능에서는 학습 모델이 기본 패턴을 이해하는 대신 훈련 데이터를 기억할 때 과적합이 발생합니다. 과적합이 발생하면 인공지능 성능이 저하되어 부정확한 예측과 신뢰할 수 없는 결과를 초래합니다.

 

2. 특징(Feature)을 추출하고 정제하는 문제

데이터의 숫자가 너무 많으면 데이터의 특징을 추찰하고 정제하는 문제가 있습니다. 인공지능에서 기능을 추출하고 정제하는 문제를 Feature Engineering이라고 합니다. Feature Engineering에는 인공지능 모델을 효과적으로 훈련하는 데 사용할 수 있는 관련 데이터 기능을 선택하고 변환하는 작업이 포함됩니다. Feature의 품질은 인공지능 시스템의 성능과 정확도에 직접적인 영향을 미치기 때문에 이 프로세스는 정말 중요합니다. 하지만, 몇 가지 문제가 있습니다. 그중, 전통적인 머신 러닝에서는 인간이 수동 작업으로 데이터를 식별했습니다. 그러므로 노동 집약적이며 전문적인 지식이 필요합니다. 그리고 Feature Engineering은 주관적이며 인간의 직관에 크게 의존합니다. 직관에 의존하므로 최적의 결과를 얻을 수 없었습니다.

Feature Engineering의 내용은 조금 방대하여 여기까지만 설명드리겠습니다.

 

사실 저도 세부적으로 자세하게 몰라 더 설명드리지 못합니다.

 

 

결론적으로, 위 문제들을 해결하기 위해 딥 러닝과 신경망이라는 알고리즘이 등장했습니다. 딥 러닝 모델은 RAW 데이터에서 관련 기능을 자동으로 학습할 수 있으므로 수동 Feature Engineering 노력이 많이 필요하지 않습니다. Representation Learning으로 알려진 프로세스를 통해 모델은 데이터에서 직접 계층적이고 추상적인 특징을 추출할 수 있습니다.

 

 

 


 

 

 

■ 인공지능의 밥: 데이터!

짧게 인공지능 개념을 알아보면서 왜 데이터가 중요한지 알게 됐습니다. 

데이터가 왜 중요한지 다시 요약해 보면, 인공지능은 데이터를 학습하고 분석하여 의사 결정을 내립니다. 따라서 인공지능이 정확한 의사 결정을 내리기 위해서는 충분한 양의 데이터가 필요합니다.

 

 

 

 

그러면 인공지능의 성능을 향상하고  정확한 의사 결정을 내리기 위해서는 충분한 양의 데이터는 어디에서 얻을 수 있을까요?

 

일반적으로 아래에서 얻을 수 있습니다.

1. 내부 데이터 수집

기업은 자체 시스템에서 내부 데이터를 수집할 수 있음.

예) 고객 데이터, 제품 데이터, 운영 데이터 등


2. 외부 데이터 수집

기업은 외부 데이터 제공업체에서 데이터를 구입할 수 있음.

예) 시장 조사 데이터, 금융 데이터, 날씨 데이터 등


3. 오픈소스 데이터 수집

오픈소스 데이터는 누구나 무료로 사용할 수 있는 데이터

예) 정부 데이터, 과학 데이터, 예술 데이터 등

 

 

내부나 외부, 오픈소스 데이터를 무작정 많이 수집만 하면 될까요? 

아닙니다!

 

데이터를 수집할 경우에 아래 기준을 모두 만족해야 인공지능 데이터로 사용할 수 있습니다.

 

 

 

★ 인공지능 모델에 필요한 데이터 기준!

1. 정확성

데이터는 정확해야 합니다. 즉, 데이터가 실제와 일치해야 합니다.

데이터가 정확하지 않으면 인공지능 모델은 잘못된 정보를 학습하고, 그 결과 잘못된 의사 결정을 내리게 됩니다.

예) 인공지능 모델이 이미지를 분류하는 데 사용되는 경우, 데이터가 정확하지 않으면 인공지능 모델은 이미지를 잘못 분류하게 됩니다. 인공지능이 고양이를 인식하는 데 사용되는 경우, 이미지에 개가 포함되어 있으면 인공지능 모델은 개를 고양이로 인식할 수 있습니다.

 

 

 

2. 완전성

데이터는 완전해야 합니다. 즉, 데이터가 누락되지 않아야 합니다. 데이터가 불완전하면 인공지능 모델은 잘못된 정보를 학습합니다.

예) 인공지능 모델은 텍스트를 이해하고 생성합니다. 텍스트 데이터가 불완전하면 인공지능 모델은 텍스트를 잘못 이해하고 생성합니다. 인공지능 모델이 텍스트를 번역하는 데 사용되는 경우, 텍스트에 단어가 빠져 있는 경우, 인공지능 모델은 텍스트를 잘못 번역할 수 있습니다.

 

 

3. 일관성

데이터는 일관해야 합니다. 즉, 데이터가 서로 일치해야 합니다.

예) 머신 러닝에서 인공지능 모델이 고객을 분류하는 경우, 데이터가 일관성 없으면 인공지능 모델은 고객을 잘못 분류할 수 있습니다.

 

 

4. 관련성

데이터는 관련이 있어야 합니다. 즉, 데이터가 사용 목적에 적합해야 합니다.

 

 

5. 신뢰성

데이터는 신뢰할 수 있어야 합니다. 즉, 데이터가 신뢰할 수 있는 출처에서 제공되어야 합니다.

 

 

6. 가용성

데이터는 쉽게 사용할 수 있어야 합니다. 즉, 데이터가 필요한 때에 쉽게 찾을 수 있어야 합니다.

 

 

7. 편향성

데이터는 편향되지 않아야 합니다. 즉, 데이터가 특정 집단에 편향되지 않아야 합니다.

 

 

관련성, 신뢰성, 가용성, 편향성의 관련 예들도 모두 비슷해서 추가적으로 설명은 드리지 않겠습니다.

 

 


 

 

 

■ 인공지능과 데이터를 통해 창출할 수 있는 가치

마지막으로 수많은 데이터와 함께 인공지능을 활용하여 창출할 수 있는 가치를 알아봤습니다.

 

1. 더 나은 의사 결정을 할 수 있습니다.

예를 들면, 인공지능 모델은 의료 데이터를 통해 환자의 질병을 더 정확하게 진단할 수 있습니다.

 

2. 새로운 발견을 할 수 있습니다.

인공지능 모델은 데이터를 통해 새로운 패턴을 발견할 수 있고, 새로운 제품이나 서비스 개발에 도움이 될 수 있습니다. 예를 들면, 인공지능 모델은 금융 데이터를 통해 새로운 투자 전략을 발견할 수 있습니다.


3. 효율성을 향상할 수 있습니다.

인공지능 모델은 데이터를 통해 기존의 업무를 자동화할 수 있습니다. 이로 인해 업무 효율성이 향상되고 비용을 절감할 수 있습니다. 예를 들면, 고객 서비스 업무를 자동화하여 고객 만족도를 높일 수 있습니다.


위 항목들은 인공지능 모델에서 데이터를 통해 창출할 수 있는 가치의 일부입니다. 인공지능 모델은 데이터를 통해 다양한 가치를 창출할 수 있고, 우리의 삶을 더욱 편리하고 풍요롭게 만들 것으로 생각합니다.

 

 

 


 

 

▶ 한 문장 정리!

인공지능(AI)은 데이터를 통해 학습하고 성능을 향상하므로 더 많은 데이터를 처리할수록 더 정확한 의사 결정을 내릴 수 있다.

 

 

 

공부를 하다가 좋은 정보가 있었습니다.

글로벌 AI 석학이신 앤드류 응 교수님 말씀도 공유합니다!

 

앤드류 응: 로켓 엔진은 딥러닝 모델이고 연료는 이러한 알고리즘에 공급할 수 있는 엄청난 양의 데이터다. 

 

 

 

 

부족한 포스팅이지만 긴 글 읽어주셔서 감사합니다!

 

 

 

 

반응형