2025年6月6日-7日,第7届北京智源大会将以线上+线下联动的形式召开,6日下午推出“大模型产业CEO”主题论坛,邀请业内知名专家学者、大模型领域领军企业CEO。
北京生数科技有限公司首席执行官骆怡航发表了主题演讲——“多模态生成:从模型走向生产”,主要围绕多模态大模型,特别是视频生成在产业落地中的机遇、挑战,并分享了生数科技(Vidu)的解决方案和成果。
以下是演讲亮点:
以下是演讲原文:
现场和线上的朋友们大家好,我是生数科技的骆怡航。今天这个论坛是产业论坛,我想更多的从未来的方向跟大家分享多模态大模型怎么走,从模型怎么走向生产千行百业,以及走的过程中会遇到什么问题,以及如何走得更好。
我们看到语言模型从去年有一个大的飞跃式的爆发,多模态在我看来可能晚了半拍或者一拍。但是今年我们看到飞速发展,我认为今年多模态大模型正处于规模化生产落地的拐点。
第一,我们看到技术迭代非常迅速,音视频的生成模型无论在效果、速度、成本上都快速提升。
其次,我们看到行业需求特别旺盛。传统的内容生产痛点非常多:周期长、成本高、人员需要非常专业的软件以及创意非常难等等。这些痛点是亟待解决的。
第三,我们也看到很多行业视频内容相关的各种产业落地节奏加快。去年一年,包括今年上半年,各种行业都在积极的探索,而且有些已经完全生产落地了。
在这样的场景下,我们做了一些行业侧的总结,包括了8大行业,还有30大场景。可以看到这些行业都是视频为主的内容产业。其中所有的行业基本上都是以视频内容为主去流转的,包括了内容的生产、内容的消费等等环节。我们看到传统的生产方式,在对这些场景的内容进行生产的时候,是亟待去解决一些痛点和需求的,所以可以看到生产价值是非常巨大的,而且亟待挖掘。
视频生成如果要规模化落地,对于生数科技来讲我们如何去推进呢?我认为今年包括再往后要同时具备四个条件:内容的创意,内容质量、生成的效率和生产的成本。创意部分主要还是人的部分,人的想象力,人的创意如何去发挥。其次就是内容质量、生产效率、生产成本。
