Open AI에서 Chat GPT가 이미지를 만들어주던 기능을 넘어서서 새로운 Sora를 발표했습니다. Sora는 텍스트 입력을 기반으로 현실적이고 다채로운 비디오를 생성하는 AI 모델로 엄청난 디테일을 자랑합니다. DALLE 3 모델 이외에도 트랜스포머 (LLM)을 결합하여 언어를 이해하며 영상을 만들 수 있는 대단한 기술입니다
OPEN AI SORA
Sora의 특징은 다음과 같습니다.
- 텍스트에서 비디오로: Sora는 텍스트 입력을 받아들여 그에 맞는 다양한 장면을 만들어냅니다. 예를 들어, 도쿄의 번화가를 걷는 세련된 여성이나 작은 붉은 판다가 뛰어다니는 연구실 같은 장면을 생성할 수 있습니다.
- 비디오 확장 및 보완: Sora는 기존의 이미지나 비디오를 활용하여 새로운 비디오를 생성할 수 있습니다. 이미지를 정확하게 애니메이션 화하거나, 비디오를 확장하거나 누락된 프레임을 보충할 수 있습니다.
- 이해력과 시각적 표현: Sora는 사용자의 입력을 이해하고 해당하는 장면을 실제로 구현합니다. 캐릭터의 감정을 표현하고 복잡한 시나리오를 처리할 수 있습니다.
Sora의 장점과 단점은 다음과 같습니다:
- 장점: 복잡한 장면을 생성할 수 있고, 사용자의 입력을 이해하여 시각적으로 표현할 수 있습니다.
- 단점: 때로는 물리학적인 시뮬레이션에서 어려움을 겪을 수 있으며, 정확한 시간적인 흐름을 처리하는 데 어려움을 겪을 수 있습니다.
Sora의 잠재력과 가능성은 매우 뚜렷합니다. 다양한 분야에서 활용될 수 있으며, 주요 활용 분야로는 영화 및 애니메이션 제작, 예술 및 디자인, 교육, 가상현실 및 증강 현실 콘텐츠 제작 등이 있습니다. 또한 교육 및 연구 분야에서도 활용이 가능하며, 다양한 시나리오의 비디오를 생성하여 창의적인 활용이 가능합니다.
Sora 연구기법
소라(Sora)는 확산 모델로, 초기에는 정적인 잡음과 같은 것으로 시작하여 비디오를 생성하고 여러 단계에 걸쳐 이를 점진적으로 변환합니다.
소라는 전체 동영상을 한 번에 생성하거나 생성된 동영상을 더 길게 확장할 수 있습니다. 모델은 한 번에 많은 프레임을 예측함으로써 대상이 일시적으로 시야를 벗어나더라도 동일한 상태를 유지할 수 있도록 하는 어려운 문제를 해결했습니다.
이 모델은 트랜스포머 아키텍처를 사용하여 뛰어난 스케일링 성능을 발휘하며, 이미지와 비디오를 패치(patch)라는 더 작은 단위의 데이터 모음으로 표현합니다. 각 패치는 GPT의 토큰과 유사하며, 이러한 데이터 표현 방식을 통합함으로써 이전보다 더 광범위한 시각적 데이터에 대해 확산 변환기를 훈련할 수 있습니다.
소라는 DALL·E 및 GPT 모델에 대한 과거 연구를 기반으로 합니다. DALL·E 3의 요약 기법을 사용하여 시각적 훈련 데이터에 대한 설명력이 높은 캡션을 생성하여 생성된 비디오에서 사용자의 텍스트 지시를 보다 충실하게 따를 수 있습니다.
이 모델은 텍스트 명령어만으로 비디오를 생성할 수 있을 뿐만 아니라, 기존의 정지 영상을 촬영하고 그로부터 비디오를 생성하여 이미지의 내용을 정확하게 애니메이션화하고 작은 세부 사항에도 주의를 기울일 수 있습니다. 또한 기존 비디오를 확장하거나 누락된 프레임을 채울 수 있습니다.
소라는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반이 되며, 이는 AGI를 달성하는 데 중요한 이정표가 될 것이라고 믿습니다.
Sora 안전조치
소라를 오픈에서 사용할 수 있도록 하기 전에 몇 가지 중요한 안전 조치를 취할 것입니다. 우리는 모델을 적대적으로 테스트할 레드 팀과 협력하고 있으며, 또한 오해의 소지가 있는 콘텐츠를 탐지하는 데 도움이 되는 도구를 개발하고 있습니다.
소라의 현재 약점은 복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있으며, 특정 원인과 결과의 사례를 이해하지 못할 수 있습니다. 또한 프롬프트의 공간적 세부 사항을 혼동하거나 시간에 따라 발생하는 이벤트의 정확한 설명에 어려움을 겪을 수 있습니다.
이러한 제품의 현재 상태를 고려하여 우리는 사용자의 안전을 최우선으로 하는데 힘쓸 것입니다. 또한 실제 사용을 통해 모델을 개선하고 더 안전한 AI 시스템을 구축하는데 지속적으로 노력할 것입니다.
Sora 특징
모델 종류 | 텍스트 조건부 확산 모델 |
훈련 가능한 파라미터 수 | 대규모 교육에 사용되는 소라는 대규모 비디오 생성 모델로서 약 1분 분량의 고충실도 비디오를 생성할 수 있으며, 대량의 파라미터를 가지고 있을 것으로 예상 |
데이터 유형 및 규모 | 가변 지속 시간, 해상도 및 종횡비의 비디오 및 이미지 데이터를 대규모로 훈련 |
활용되는 아키텍처 | 트랜스포머 아키텍처를 활용하여 시공간 패치에서 작동 |
패치 기반 표현 | 비디오 데이터를 패치로 변환하여 훈련 가능한 형태로 전환 |
훈련 및 생성 과정 | 비디오의 시간 및 공간적 특성을 재구성하여 고화질 비디오를 생성하는 확산 모델로 훈련 |
데이터 크기 및 종류 | 다양한 해상도, 지속 시간 및 종횡비의 비디오 및 이미지 데이터를 훈련하는 데 사용 |
언어 이해 및 텍스트 조건 | 텍스트 캡션 및 프롬프트를 통해 사용자가 원하는 비디오 생성을 지시하는 기능을 통합 |
훈련 방법 및 평가 | 모델의 능력과 한계에 대한 정성적 평가를 중점적으로 실시 |
결론
이 놀라운 신기술은 아직 일반인이 접근할 수 없지만 만약 일반화된다면 누구나 동영상을 단순히 생각한 글로 만드는 것이 가능해집니다. 그럼 이제 배우, 영상 편집자, 감독 등 영화, CF 관련 종사자들은 자리를 잃어버릴 가능성이 높습니다. 각본가나 콘티처럼 창조적인 업무를 하는 것이 인공지능 시대에 내 일을 지킬 수 있는 중요한 지표일 것입니다
'IT information' 카테고리의 다른 글
삼성 갤럭시 S25 AP 엑시노스 2500 사양 유출 성능 예상 (1) | 2024.01.24 |
---|---|
윈도우12과 코파일럿 AI 연산 16기가 램 기본 하이닉스 호재 (2) | 2024.01.21 |
자급제 SKT 유심 기변 후 휴대폰 이용 정지 문자 안내 대처 방법 (0) | 2023.12.16 |
삼성 갤럭시북4 인텔 코어 울트라 AI 노트북 출시 (2) | 2023.12.15 |
트위치 서비스 중단 네이버 치지직 신규 오픈 이제 김갑주는 어디서 보나 (1) | 2023.12.06 |