還得是開(kāi)源！潞晨Open-Sora技術(shù)道路公開(kāi)，一鍵生成16秒720p視頻

發(fā)布時(shí)間：2024-06-19 文章來(lái)源：本站瀏覽次數(shù)：1248

16秒720p高清視頻，現(xiàn)在人人可免費(fèi)一鍵生成！潞晨 Open-Sora 是一個(gè)致力于高效生產(chǎn)高質(zhì)量視頻的開(kāi)源項(xiàng)目。自 3 月發(fā)布以來(lái)，該模型在 GitHub 上已獲得 17.5K 的星標(biāo)。以下是潞晨 Open-Sora 技術(shù)路線(xiàn)的具體內(nèi)容：

引入視頻壓縮網(wǎng)絡(luò)：采用與 OpenAI 的 Sora 相同的方法，在時(shí)間維度上進(jìn)行 4 倍壓縮，無(wú)需抽幀，可使用原始 FPS 生成視頻。
利用 2D VAE 知識(shí)：由于訓(xùn)練 3D VAE 的成本較高，團(tuán)隊(duì)嘗試讓模型重新利用在 2D VAE 中學(xué)習(xí)到的知識(shí)。他們提出了一個(gè)簡(jiǎn)單的視頻壓縮網(wǎng)絡(luò)（即 VAE），首先在空間維度上實(shí)現(xiàn) 8x8 倍的壓縮，再?gòu)臅r(shí)間維度上壓縮 4 倍。
分三步訓(xùn)練 VAE：
1. 前 380K 步：在 8 個(gè) GPU 上訓(xùn)練，凍結(jié) 2D VAE 的權(quán)重，只訓(xùn)練 3D VAE 部分，即對(duì)時(shí)間維度的壓縮重建。訓(xùn)練目標(biāo)為對(duì) 2D VAE encoder 輸出的特征進(jìn)行時(shí)間維度的壓縮重建，并添加一個(gè) identity loss 使得新訓(xùn)練的 3D VAE 輸出的特征盡可能和原始 2D VAE 的特征相似。
2. 接下來(lái)的 260K 步：移除掉 identity loss，繼續(xù)單獨(dú)訓(xùn)練 3D VAE 部分。
3. 最后 540K 步：解凍 2D VAE 權(quán)重，訓(xùn)練整個(gè) VAE 模型來(lái)重建原始視頻。該階段在 24 個(gè) GPU 上完成。其中前兩個(gè)階段的訓(xùn)練數(shù)據(jù)使用 20%圖像和 80%視頻，視頻用 17 幀進(jìn)行訓(xùn)練；最后一個(gè)階段用 34 幀的隨機(jī)幀數(shù)視頻進(jìn)行訓(xùn)練，使 VAE 模型可以壓縮任意長(zhǎng)度的視頻。

通過(guò)以上技術(shù)路線(xiàn)，潞晨 Open-Sora 能夠在保障模型輸出質(zhì)量的同時(shí)，降低計(jì)算資源的消耗，并實(shí)現(xiàn)多種功能，如支持輸出多種視頻寬高比等。如果你想了解更多關(guān)于潞晨 Open-Sora 的信息，可以訪(fǎng)問(wèn)其 GitHub 主頁(yè)。潞晨Open-Sora可零門(mén)檻免費(fèi)獲得模型權(quán)重、全套訓(xùn)練代碼，沉浸式游戲、創(chuàng)意廣告、制作影視大片……都能來(lái)試試~

上一條：上�？萍加岸及l(fā)布一批新平...

下一條：我國(guó)多所高校加大力度培育...

還得是開(kāi)源！潞晨Open-Sora技術(shù)道路公開(kāi)，一鍵生成16秒720p視頻

還得是開(kāi)源！潞晨Open-Sora技術(shù)道路公開(kāi)，一鍵生成16秒720p視頻