上周五(10月17日),“AI新榜”的「头号玩家沙龙」在北京首都国际会展中心跟大家见面,这是我们第三场AI沙龙了!
这次我们邀请到4位AI一线玩家,分享他们在AI领域创造/创作/观察的心得,他们分别是AI创作博主、海螺AI和百度AI超级创作者@胡生AIGC,聚力维度品宣总监@谢京华,天元律师事务所合伙人@李昀锴,以及AI新榜资深作者@Kino。
在这里特别感谢当天来现场交流的每一位朋友,本文是我们整理的演讲精华,供大家回顾参考。
期待下一场与你见面,欢迎在评论区留下你希望的城市!
@胡生AIGC AI创作博主,海螺AI、百度AI超创,AI春晚共创作者
今天我想从一个“野路子”创作者的转型经历出发,和大家聊一聊,AI究竟为我们这样的普通创作者带来了什么,以及我们该如何抓住它。
在进入AIGC领域之前,我曾做了10年的广告,算是个“老广告人”,也经历了人生的“三起三落”,从美术联考第一却被顶替名额,到父亲离世让我一度消沉,再到“all in”房地产广告行业,见证了它最辉煌的十年,也最终被时代的浪潮拍下,赔光了所有积蓄。
正是站在人生最迷茫、最低谷的时候,我遇到了AI。
今年年初,我偶然在B站刷到一个AI课程的广告,鬼使神差地就点了进去。虽然那个课程本身有点“割韭菜”,我很快就退了,但它为我打开了一扇通往新世界的大门。我意识到,这个技术或许能和我的专业相结合,成为新的出路。
我的AI之路有点“野路子”,没有系统学习,全靠自己在各个平台摸索、和前辈同行交流。我的团队也很小,只有我和一个助理。但我认为,过去做设计和内容营销的经验,让我能更快地抓住热点和流量走向,这或许是我的优势。
我大概做了两个多月的AI视频,一直不温不火,直到《藏海传》的二创系列。
说实话,在创作前我并没看过原剧,只是刷到几个片段,直觉告诉我,它的风格和故事走向非常适合用AI来演绎。所以我开始尝试用古风国漫的风格去呈现我理解的故事。没想到作品发布后,迅速在全网拿下了近500万的播放量和几十万点赞。在当时,我应该是第一个把《藏海传》AI影视二创做火的人。
这次的成功,也验证了我的一个核心观点:在AI创作中,想法永远比技术更重要。
早期的AI工具其实有很多缺陷,比如首尾帧不连贯、画面失真等等,内行一眼就能看出瑕疵。我的片子能出圈,或许靠的不是技术上的完美,而是剧情上的创意。
这次经历让我深刻思考一个问题:我们到底为什么要拥抱AI?
很多人在AI刚出现时,充满了抵触,说它是抄袭,是无底线的。但我想说,AI的本质,只是一个工具,它和50万年前人类祖先用来涂鸦的树枝、和古埃及人用来刻画的石头、和我们后来使用的画笔、相机、PS,没有任何区别。
工具永远在更新,但使用工具的人和他的想法,才是永恒不变的核心。
AI的价值在于“技术平权”,它给了我们普通人一个打破圈层、让想法被看见的机会。我曾和传统影视行业的朋友交流过,要实现我曾经制作的《她的定义》片子的效果,用传统方式至少需要1-2个月的时间、90-100万的资金和10人以上的团队。而AI,让这一切的门槛被无限拉低。
当然,技术平权不代表无脑创作。想要做出真正优秀的作品,你依然需要有导演的思维、制片的思维和剪辑的能力。内容,永远先行。最后,我想用一句话总结我的看法:AI不会代替你,但它会代替那些不会用AI的“你”。
@谢京华 AI 3D动漫短剧《玄幻:从拉二胡开始》 技术平台方
大家好,今天我要给大家分享的是,我们团队目前在研发的3D AI影视内容生成平台,我们称之为“赛博导演”。
我们看到,近几年的视听产业发展非常迅猛,已经达到了万亿级别的规模,其中短剧更是一个突飞猛进的领域。去年短剧的市场规模达到了500多亿,今年预计将增长到600多亿。而在短剧之中,今年又杀出了一匹黑马,那就是“漫剧”,也就是动漫形式的短剧。根据巨量引擎的数据,漫剧的市场规模预计将从去年的不到5000万,预计今年飙升至20亿。
整个行业看似繁荣,但深入剖析后会发现:高成本才能带来高回报。低成本的制作,往往只能靠数量去搏一个幸运的机会。虽然偶尔也有低成本的黑马出现,但整体上,那种既能实现低成本,又能达到高效果、高回报的技术红利,其实还未真正到来。
为什么会这样?传统的影视制作无非两种主流形式:一种是实拍加上后期,另一种是纯动画制作。这两种形式都有一个普遍的痛点,就是成本高、周期长。短剧的出现,给了更多小团队一些机会,但它的成本下限也已经到了50万到100万一部剧,平均每分钟成本在5000到1万元,这对于普通人来说依然是高不可攀的。
至于动画,门槛就更高了,它不光是成本贵,整个制作链条还非常长,从原画、建模、K帧到渲染,需要一个庞大的团队协作才能完成。
AI的出现,给了普通人一个制作影视内容的机会,但在使用AI,尤其是2D生成技术来做剧时,一个严重的问题就是一致性难以保证。在一个需要持续几秒甚至更长的镜头里,角色的服饰、面部长相,甚至背景都可能在不停地变。创作者只能通过生成大量精细的分镜,再结合PS或AE等专业工具进行大量后期修复,最终成本又回到了每分钟5000到1万的水平。
基于这种情况,我们开始研发一种不同于主流2D的技术路线,那就是3D AI路线。这条路径的核心优势在于它的可控性、可编辑性和高度的一致性。为此,我们研发了3D AI影视内容制作平台——赛博导演。该平台包含3大部分:一是多模态3D视频大模型“赛娲”;二是全流程快捷制作工具;三是“数字横店”资产库。
其中核心是自研的3D多模态视频大模型“赛娲”。这个模型主要为了解决3D AI路线的两个核心问题:一是生成3D世界的各种对象,二是让这些对象能够运动和表演。
具体来说,我们输入一张图片或是一段文字描述,“赛娲”大模型就能在几秒钟内快速生成一个高精度的角色3D模型。除了生成角色,“赛娲”大模型更重要的能力是AI生成表演。你只需要给它一段台词,它就能生成带有情绪的语音,并驱动3D角色的口型、表情和整个肢体动作都随之进行表演。现在的很多AI也能生成口型或简单的动作,但要让角色进行连续性的、符合剧情的表演就非常困难。
我们把“赛娲”大模型的能力集成到了一个全流程的快捷制作工具中。在这个工具里,你可以导入自己的IP资产,也可以使用我们内置的包含数百个角色、场景的“数字横店”资产库。工具里有时间线,你可以对AI生成的动作进行精细调整。如果你想要更个性化的动作,甚至可以用普通的手机摄像头进行动作捕捉,就能达到专业级设备的效果,然后将动作应用到你的角色上。
目前,这个“赛博导演”平台已经投入了商业应用。我们自己制作了一些剧集,也和一些高校、广电集团共建了创作基地。我们未来的计划是把这个平台全面开放给广大的创作者,共同打造一个影视级的UGC生态。希望我们探索的这条路线,也能为所有想用AIGC创作高品质影视内容的朋友们,提供一个新的思路和有力的支撑。
今天我想从法律从业者的视角出发,和大家深入探讨一下“AI合规”这个话题。
今年9月,《AI生成内容标识办法》正式生效。法规的首要目标其实是通过强制标识,帮助大家一眼分辨出哪些是真实内容,哪些是AI生成的,以此来遏制虚假信息的传播。
而第二个要解决的是技术滥用的问题,AI合成技术的门槛现在非常低,一个普通人看半小时教程就能做出他人的肖像或语音,这很容易被用于虚假信息传播等违法行为。因此,法规的另一个目的就是要实现“溯源”,通过技术手段追踪到内容的制作者和发布平台,形成一种法律上的威慑力。
那么,这个责任具体落到了谁的头上呢?法规同样明确了四类主体:技术开发者、我们最常接触的社交媒体平台、手机应用商店,以及我们每一位内容使用者,也就是创作者。其中,社交平台是管控的最核心环节,因为内容的负面影响只有在传播中才会被无限放大。
对我们创作者来说,内容标识目前更多是一种“倡导性义务”,而不是强制性的法律责任。 也就是说,如果你不加标识,眼下没有哪条法律会直接处罚你。但真正的约束力来自哪里呢?来自平台。平台为了规避自身的风险,会严格执行管理策略,一旦发现你没做标识,很可能会对你的内容进行限流、下架,甚至封号。
我们再来谈谈大家最关心、也是最痛的一个问题:AI内容的知识产权。我必须告诉大家一个关键现状:目前,纯AI生成的内容进行著作权登记,大概率有一定困难。在司法实践层面,各地法院的态度也不统一。比如我本人在2023年北京互联网法院的案子,首次认定了AI文生图可以有著作权;但到了2025年,又有案子因为原告无法提供足够的提示词、参数等证据来证明自己的“智力投入”,而被法院认定不构成作品。
这就给了我们创作者一个非常重要的启示:要想让你的AI作品获得法律保护,就必须证明你的“智力投入”,把整个创作过程从“AI自动生成”转变为“人机共创”。
这意味着,你必须完整地记录和留存你的创作过程——从核心创意、分镜设计,到每一条关键的提示词,再到后期的修改合成。只有这样,你才能在法庭上证明,这个作品体现的是你的独创性,而不是机器的随机生成。
其次,虽然目前全球都处在一个“不着急立法”的红利期,但未来国内很可能会借鉴欧盟的“不同模型风险分级管理”的方式,或是在AI生成环节进行版权管理和监控。
对我们的创作者来说,一方面,使用知名IP无疑能有效增加你内容的曝光度;但另一方面,我们必须认识到其中潜藏的巨大版权风险。
以Sora为例,它最初是“Opt-out(选择退出)”的方式,模型默认使用所有数据,版权方不满意得自己申请退出。但在巨大的舆论压力下,它迅速转变为“Opt-in(选择加入)”方式。也就是说,现在是版权方可以选择是否愿意“加入”到Sora的生态里来。未来,平台甚至可以根据IP的使用情况,与版权方进行收益分成和管理。这也有可能将成为未来整个行业的实践标准。
@Kino AI新榜资深作者,长期关注大模型和AI应用
我想先问大家一个问题:过去几个月,有哪个AI产品或AIGC爆款,让你感觉这个世界又变了?我相信每个人心中都有不止一个答案,而这些答案,恰好就是我今天想分享的内容。
通常,我们对AI模型能力升级最直观的感受,都来自社交媒体上那些刷屏的爆款。而这些爆款和热门玩法,大都是底层模型能力升级之后,所呈现出的冰山一角。下面我们共同回顾一下,在图片、音频、视频这几个核心领域,都发生了哪些标志性的技术升级,又催生了哪些新的内容趋势。
首先,今年AIGC产品有一个重大趋势,就是正在从单纯追求“生成一个还不错的结果”,转向三个更成熟、更实用的方向:增强的创意控制,让我们能对内容精细编辑;多模态能力的融合,让图片、音频、视频的界限日益模糊;以及无缝的工作流集成,其更高级的形态,就是我们常听到的AI Agent。
接下来我们看具体产品,先从AI生成图片领域开始。从GPT-4o的多模态交互,到Midjourney V7,再到谷歌的Nano Banana(也就是Gemini 2.5 Flash Image)和字节的Seedream 4.0,顶尖模型在效果上你追我赶,不相上下。
这些技术进步也催生了很多新玩法。比如前段时间在小红书上很火的“和偶像合照”趋势,就是利用Seedream 4.0生成了大量具有强烈艺术感的俯视构图照片,并衍生出与童年的自己、与OC合照等多种变体。
但同时,也有引发了伦理争议的热门AIGC内容。例如,有用户利用AI生成流浪汉闯入家中的逼真图片来恶作剧,虽然获得了巨大的传播效果,但也引发了关于“是否应该娱乐化弱势群体”的反思。
在AI音频领域,除了ElevenLabs这个海外标杆,国内厂商也在快速跟进,比如Minimax推出的Speech 2.5语音模型,以及字节火山引擎的语音合成和声音复刻模型2.0。“音乐界Midjourney”Suno发布了V5模型,但当人人都能一键生成歌曲时,新的价值在哪里?答案可能是人格化的IP。国内AI Talk团队打造的AI歌手Yuri就是一个绝佳案例,她的首支音乐MV全网播放超700万,甚至拿下了北面的商业代言。
接下来,是竞争进入白热化的AI视频领域。故事的开篇,就是谷歌Veo与OpenAI Sora的巨头对决。Veo 3凭借其音画同步能力,引领AI视频进入了声画一体的新阶段,目前已经升级到了Veo 3.1版本。OpenAI发布Sora 2并推出了独立的App,被称为AI版“TikTok”,“客串”和“二创(Remix)”是它的两个核心玩法。Sam Altman亲自下场开放了自己的肖像权,催生了病毒式传播的“Sam宇宙”。
除了两大巨头,Runway、Kling、Hailuo、PixVerse、Vidu等工具也各占一席之地,Midjourney也正式入局。随着AI视频生成能力的飞速提升,一个明显的趋势是,AI开始支撑起更长、更高质量的叙事,在影视制作流程中扮演越来越重要的角色。
看完了这些技术进展和热门内容,我想大家和我一样,在兴奋之余都会思考:这一切到底意味着什么?作为创作者,我们该如何应对?
Anthropic的联合创始人Jack Clark最近分享了一个他童年的经历。他说,小时候他很怕黑,总把椅子上的衣服想象成怪物。但只要鼓起勇气打开灯,看清它只是一堆衣服,恐惧就消失了。他说现在我们身处的世界就是那个黑暗的房间,而AI就是那个“怪物”。但不同的是,这次当我们打开灯时,发现怪物是真实存在的。
我觉得这个比喻,首先打破了很多人的“鸵鸟心态”。“AI只是个工具”这句话,现在很可能是一种危险的自我安慰。Jack Clark的核心观点是,面对AI,我们需要在技术乐观主义之上抱有“适度的恐惧”。
当AI能承担绝大部分执行的工作时,人类创作者的核心价值,必然会向价值链的上游转移。我们需要知道如何向它提问,如何激发它最好的潜能,这是一种全新的、与AI高效沟通和协作的能力,与此同时你还要有独特的审美、品味和创意,才能构筑自己的核心竞争力。
「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、推荐 一起研究AI