科技改變生活 · 科技引領未來
快手公司新推出的國內視頻生成模型“可靈”,采用了與Sora相似的技術路徑,并融合了眾多自主研發的新技術。這一模型能夠產生長達120秒、分辨率高達1080p的視頻內容,并且在模擬復雜運動和物理特性方面表現出色。
主要功能亮點:
1. 高質量視頻制作:
- 時長與幀率:“可靈”支持高達2分鐘、每秒30幀的視頻輸出,確保流暢的視覺體驗。
- 分辨率:達到1080p的高分辨率輸出,保證了畫面的清晰度和細膩度。
- 寬高比:適應各種觀看場景和平臺需求,支持多寬高比的視頻生成。
2. 物理世界模擬:
- 真實物理效果:該模型可以精準地再現諸如重力、光影反射、液體流動等自然物理現象。
- 細節呈現:對物體的運動、表面反光、影子的變化等細節進行了精細的刻畫,提供逼真的視覺效果。
3. 復雜運動的精確描繪:
- 動態建模:無論是快速奔跑的動物還是月球上行走的宇航員,都能準確捕捉并重現其動態。
通過上述技術的整合應用,“可靈”大模型不僅提升了視頻內容的生成質量,還為各類應用場景提供了強大的技術支持,標志著AI視頻生成技術在國產化道路上的一大步。
在生成視頻內容方面,我們確保畫面的流暢度和連貫性,精準捕捉動態過程中的微小變化。我們的技術支持用戶輸入多種控制信息,如攝像機運動、幀頻率以及邊緣、關鍵點和深度等信息,極大地豐富了內容控制的靈活性。
為了優化文本提示詞的處理,我們設計了專門的語言模型,該模型能夠對用戶的輸入進行高效的擴展和優化處理,從而顯著提升內容的生成質量。
從技術實現的角度來看:
1. 模型架構:
- 采用了類似Sora的DiT結構,通過使用Transformer來替換傳統擴散模型中的卷積網絡,這不僅增強了生成能力,還提高了系統的可擴展性。
- 自研的3D VAE網絡實現了時空數據的同步壓縮,有效提升了視頻重建的品質。
- 設計了一種全注意力機制,通過3D Attention進行精確的時空建模,這讓我們能夠準確模擬復雜的時空動態,同時考慮到計算效率的問題。
2. 數據質量保證:
- 建立了完整的標簽體系,通過精細化的數據篩選與調整,確保訓練用的視頻數據具有高質量。
在視頻描述模型的研制上,我們成功構建了一種精確且詳盡的模型,通過優化文本指令的響應性,顯著提升了其功能。
計算效率的提升
- 分布式訓練集群的應用:借助分布式訓練集群,我們利用算子和重算策略的優化手段,極大提高了硬件的使用效率。
- 分階段訓練策略:我們采取了一種分階段的培訓策略,先在較低的分辨率階段通過海量數據來增強模型的能力,隨后轉入高分辨率階段以提升細節的呈現效果。
創新案例展示
- 大規模合理動作生成:我們實現了長達兩分鐘的視頻內容生成,展現了流暢且合理的運動效果。
- 物理世界模擬:我們的模型能夠模擬物理世界的特性,為畫面生成提供了強大的概念組合能力。
- 電影級別畫質生成:支持自由調整輸出視頻的寬高比,能夠生成電影級別的畫質效果。
- 表情與身體動態驅動:基于自研的3D人臉和人體重建技術,結合背景穩定性與重定向模塊,實現了僅需一張全身照片即可體驗生動“唱跳”玩法的表情肢體全驅動技術。
官網訪問:(https://kling.kuaishou.com/)
速業互動