WA Forum: 언어 처리 인공지능 어디까지 왔나? (The State of AI Language Models)

일시: 2022년 5월14일 (토요일) 10:00 am – 1:00 pm (시애틀 시각); You can join a Zoom meeting (starting at 9:45 am).
강사: 김영진 박사 (공대 98), Principal Researcher, Microsoft
주최: 워싱턴 지부

ZOOM

김영진 박사 (공대 98), Principal Researcher, Microsoft

2022년 5월 세미나에서는 현재 Microsoft에서 Principal Researcher로 근무중인 김영진 박사님이 인공지능의 주요 연구분야중 하나인 자연어 처리 (Natural Language processing)에대한 기본원리, 배경, 연구동향 및 전망에 관한 강의를 합니다.  현재 인공지능 연구는 자연어 처리 (Natural Language processing)외에도 다양한 응용, 예를 들면, 특정 영역에서 전문가 수준의 해법을 제공하는 전문가 시스템 (Expert System), 대규모 데이터에서 유용한 정보를 추출하는 데이터 채굴 (Data Mining), 패턴 인식 (Pattern Recognition), 음성 인식 (Speech Recognition), 컴퓨터 비전 (Computer Vision), 로보틱스 (Robotics)등의 분야에서 이루어지고 있는데, 인간이 사용하는 일반 언어로 작성된 문서를 처리하고 이해하는 자연어 처리 분야의 연구 성과는2020년도 가장 위대한 기술로 MIT Technology Review에 의해 평가받고 있습니다. 이러한 인공지능 분야의 첨단 연구에서 김 박사님은 장래가 촉망되는 차세대 과학자로 서울대 동문(공대 98)입니다.

자연어 처리 (Natural Language processing) 인공지능 (AI)은 2013년부터 본격적으로 시작된 현 세대 AI 혁신에서 핵심적인 역할을 하고 있습니다. 인간의 언어를 기계가 이해하고, 기계가 문장이나 글을 작성할 수 있도록 하기 위해 다양한 기법들이 소개되었고, 이는 AI 전 분야의 혁신을 이끌고 있습니다. 최근에는 인터넷 웹을 통해 수집한 방대한 양의 데이터를 초거대 모델이라 불리는 모델들로 학습시켜 사람과 동일하거나 더 나은 언어 처리 능력을 보여주기도 합니다. 이번 세미나에서는 이러한 언어 처리 인공지능의 기본적인 원리들과 최신의 혁신들, 그리고 그 성과와 미래 과제들을 소개합니다. 특히, 지도 학습 (Supervised Learning)에서 시작된 패러다임이 어떻게 비지도 학습 (Unsupervised Learning)과 전이 학습(Transfer Learning) 패러다임으로 전환되었는지 (예: Google의 BERT)와 이를 통한 대규모 Pre-trained 모델 (예: Microsoft Turing, OpenAI GPT-3 (Generative Pre-trained Transformer-3) 들의 등장을 그 배경과 원리적인 측면에서 설명합니다. 참고로, GPT-3는 일론 머스크 (Elon Musk) Tesla최고경영자 (CEO)등이 주도해 설립한 San Francisco 소재 AI연구기관 OpenAI에 의해서 개발된, 인간이 작성한 것과 같은 문서 (Human-like Text)를 생성할 수 있는 초거대 (Hyper) 3세대 언어모델 (Largest ever created with 175 billion parameters) 입니다.  이와같이 모델의 크기가 비약적으로 커진 만큼 GPT-3는 과거에 못했던 고난도 일을 해낼수 있습니다. 기존 AI는 특정 주제나 키워드에 대해 정해진 답을 주로 했다면, GPT-3는 여러 분야에 걸쳐 어떤 말이든 잘 알아듣고 문장을 직접 생성해 질문에 맞는 답변을 내놓는 것이 가능합니다.  소설·에세이를 쓰거나 장문의 글을 요약하는 능력도 탁월하고, 일상 언어를 컴퓨터 프로그래밍 언어로 번역해서 애플리케이션(앱) 개발에 필요한 코딩까지 해 줄수 있습니다. 월스트리트저널 (WSJ) 등 주요 미디어들은 “GPT-3가 인간과 거의 동등한 수준의 언어능력을 갖췄다”며 “GPT-3기반의 AI는 서류 요약, 외국어 번역, 보고서 작성, 이메일 작성 등 사람 수준의 작업이 가능하기 때문에 업무 생산성이 크게 향상될 것”이라고 평가하고 있습니다.  마지막으로, 보다 효율적인 컴퓨팅을 위한 모델 압축과 sparse 모델 기술들도 소개하고, 이러한 모델들의 현재의 한계점과 활발한 연구 방향을 요약 정리합니다. 이번에도 많은 분들이 참여하여 질의응답, 의미있는 토론과 대화를 나누시기를 바랍니다.

  • 2018 – Present: Principal Researcher at Microsoft (https://www.microsoft.com/en-us/research/people/youki/)
    연구분야: 초거대 AI 언어 모델, Efficient neural network architecture design and development at large scale
  • 2016 – 2018: Intel – efficient neural network architecture
  • 2013 – 2017: Georgia Institute of Technology (조지아 텍) 박사 – Computational Science and Engineering
  • 2006 – 2013: Samsung Electronics – Senior Software Engineer
  • 2004 – 2006: Park Systems – Software Engineer
  • 2002 – 2004: 서울대학교 석사 – 항공우주공학과 
  • 1998 – 2002: 서울대학교 학사 – 기계항공공학부 
    연구분야: untethered soft robotics, shape reconfigurable devices, inorganic polymers, and polymer nanocomposites
서울대학교 미주동창회

서울대학교 미주동창회