对话嘉宾:胥彪,VMEG 创始人,前腾讯云副总裁
对话背景:AI 视频工具供给丰富,包括 HeyGen、Creatify 等产品都在海外市场获得不错成绩,VMEG 作为同赛道产品,在2024年才上线,但启动即拿下 Product Hunt 日榜第3名,流量也快速增长。就此,白鲸出海与创始人胥彪交流了其创业历程与背后思考。
这两年,AI 浪潮下,不少大厂人出来创业,他们基于自己的背景与积累、对行业的洞察,选择一个细分赛道扎进去,希望抓住 AI 的机会闯出一片天地。VMEG 的创始人胥彪也是如此,硕士毕业即进入腾讯,在那里工作14年,从 toC 产品做到广告、再去云服务做到腾讯云副总裁,他基于自己对行业的理解,选择 AI 视频方向创业切入市场,VMEG 主要提供2个功能,基于图片视频等原始物料自动生成广告视频(Clip to Video);以及多语言视频翻译+对口型(Video Translation)。
VMEG 现在主要2个功能,Clip to Video(混剪)和
Video Translation(视频翻译)| 图片来源:VMEG 官网
本周,我们与胥彪老师聊了下,在营销方向上已然有 HeyGen、Creatify 等大量 AI 视频工具供给的当下,他背后的思考与逻辑。在交流中,我们发现很难得的一点是,从大厂出来的胥彪,在带小团队创业时风格无缝切换,做全量增长形成健康的流量结构但花钱很少,在产品的研发迭代上也不冒进,更多去贴合自己的客户画像和技术现状去做功能取舍。
以下是对话内容,白鲸出海做编辑和删减。
一、为什么要做一个AI视频工具?
白鲸出海:请先介绍一下自己在创业之前的的经历。
胥彪:我是学计算机的,硕士毕业就去了腾讯,在腾讯做了14年,创业之前,我就这一份工作经历。虽然只在一家公司待过,但在腾讯做过的业务横跨了3个种类。
我最开始做的是移动互联网业务,短信、手游开发、应用宝等等,从应用宝开始我进入了广告系统,经历了腾讯最早的展示类广告 CPM、CPC 到 CPS、CPA、CPX 的整个发展,主要负责广告系统的算法、以及广告平台系统架构的开发,在这个阶段,研发和产品开始一起带。
在2014年前后我进入了腾讯云这样一个更加 toB 的业务,经历了腾讯云团队从最早的百人到万人的过程。我在这个时期负责的是非计算类的业务,包括数据库、文件存储、CDN、大数据、AI 产品。
2018年算是一个转折点,从移动互联网进入产业互联网阶段,我开始聚焦到智慧零售行业,当时公司给了我100个 headcount,第一年背4亿人民币收入的 KPI,腾讯的 KPI 是应收、不是合同收入,这是非常有挑战的。而腾讯做零售和阿里不一样,切入点就是营销,借助于腾讯在 C 端的优势打通线上与线下,当时我主要在做营销云,帮助客户分析用户数据、搭建数字化的通路,从云的 Paas 到营销 Saas,在腾讯我经历了从技术到产品到业务3种不同的角色。
所以我2022年下半年从腾讯出来,选定的也是 Marketing 的赛道,之前在腾讯主要 toB,现在算是 to SMB 吧。
白鲸出海:选择 AI 营销视频方向,除了自身积累之外,还有别的原因吗?
胥彪:选择这个赛道一个是因为有足够的积累、另一个则是深入行业看到了问题。
我之前做广告,大家强调数据驱动,但我们整个链路做下来的感觉是,整个数据驱动的闭环里面,物料是最脱节的地方,绝大多数的企业会外包物料的制作,而一旦外包出去,从制作到投放的这个链条是很难追踪的,其实现在像是巨量引擎这样的主流广告平台也只能挂20个视频做素材。数据再多、用户标签再多,但是能测试的素材就20个反馈是不够的,这里面的主要原因是供给不够。
所以当时在营销赛道做 AI 方向的创业,我们聚焦到链条缺口,AI 制作素材上。定了这个方向之后,我们看了文本、图片、视频这几种媒介,结合对趋势的思考,判断依然是 Video first,当时团队觉得难度大,但现在来看是正确的,图片的难度很快被拉平了。
二、AI 生成视频,重点不是生成
白鲸出海:VMEG 在2024年在海外上线,时间已经比较晚了,咱们主要提供 AI 混剪(clip to video)和视频翻译(video translation)2个功能,也都是其他产品在做的功能,还敢去投入的原因是什么呢?
胥彪:我们对于 AI 营销视频有自己的理解,虽然 AI 在里面做的是生成,但更重要的其实是理解。
2023年我们先做的国内市场,服务 KA。国内视频的发展比海外更快,原始物料是不缺的,已有物料怎么用好,我们切入的是视频理解。所以我们上线的第一个功能是 Clip to Video。
当时我们服务冰箱、厨具类的头部品牌,他们有很多物料,然后产品有很多的功能卖点,大容量、AI 保湿,生成视频之后,这些 Feature 要与视频画面匹配,也就是图文匹配。
其实这个还是比较有难度的,也是现在市面上一些产品的问题,生成的视频,画面和文字各说各的。服务国内 KA 沉淀下来的这个能力,在做海外之后也是给我们积累了不错的口碑,被客户认为是很懂他们需求的一个能力。
白鲸出海:之前测试其他产品的时候也遇到了这个问题,它是先生成脚本,让用户选择,等于定了脚本再去做图文匹配,有的时候物料不够,就出现各说各说的问题。
胥彪:图文匹配其实分两步,大模型的 Caption 功能,从图到文,视觉模型理解画面信息、语言模型生成文字,我们自己会加一步,文到营销文。然后是文到图,用画面生成的文字再反向去匹配画面,也就是 CLIP,这是图文匹配的基础。我们用了很多已有的 CLIP 模型,但是效果都不太好,最后自己调了一个模型来保证效果,这是其一。
产品成立的点,效果好之外还要成本低,才能有利润空间。所以这里面的关键难点其实是抽视频里的有完整图片信息的关键帧,比如一个视频30fps,都抽成本太高了,我们用算法来解决这个问题,比如1s 我们最多抽5帧,去做匹配,成本就能低下来很多。
白鲸出海:这是 VMEG 没有像其他产品一样提供编辑脚本功能的原因吗?
胥彪:这是一个原因,产品逻辑是 AI 生成脚本,过程中会抓取图片信息,来实现图片和脚本对齐,另一个是因为我们对每个品类都有一套“模板”,经过训练之后我们认为基于我们的技术写的脚本,是优于客户的。
后续,我们可能也不会开放编辑,但可能支持用户上传整段脚本,因为有些客户他确实是更专业的。越专业的客户越想干预每一个环节,但 VMEG 的产品不想定位到一个编辑产品,拼编辑器功能谁也干不过剪映。所以我们会尽量基于对行业、对市场的理解保持产品简单。例如关于字幕,大多数产品都必带字幕,但我们也支持不加,因为 Instgram 的视频就是没有字幕,加完之后再去剥离非常麻烦,很多海外客户都适应多个工具来形成 workflow,这不是问题。
白鲸出海:那这样的话,我们后续做海外,海外的物料没有那么丰富会不会出现问题?
胥彪:整体上问题不大,这类专业客户对自己产品的卖点和物料有理解;另外就是和我们的出海路径也有关系。
我们2023年做国内,SMB 不付费、KA 存在结尾款问题,2024年我们决定 Focus 海外,春节后一个月上线,基于国内累积下来的图文匹配能力先上线了 clip to video 功能,然后还是先服务的出海企业,他们物料是很丰富的。但可以看到这些做出海的中国企业已经习惯于海外的一些付费模式、养成了比较好的付费习惯,很多企业很快就开始问怎么付费。
三、跟着客户走,产品长成该有的样子
白鲸出海:所以我们做到今天客户画像具体是什么样的,还是出海企业多一些?
胥彪:是的,出海企业多一些,现在东南亚和欧美也有一些。客户主要分两大类,一个营销相关的 SMB 品牌、以及带货类的电商卖家,前者占比更大。
然后因为服务出海企业,他们有多区域市场业务,我们后面上线了第2个功能,视频翻译。也就探索出了现在的第二大类客户,影视解说类。
白鲸出海:还挺有意思的,我们先说营销方向,我们在聊之前测试了产品,就像您刚才说的,保持简单,我们的印象也是这样,没有其他产品的一键粘贴 url、而是需要准备素材,没有刚才聊到的脚本编辑,现在理解了,但 Avatar 是一个很热的功能,也容易加强视频的可信任度,为什么也不做呢?
VMEG 生成广告视频的流程
Creatify 生成视频广告的流程,红色部分是 VMEG 没有的功能设计(关于 URL-ads 的更多信息,也可以参阅我们之前的选题《ARR千万美金,找到 PMF 的 toC AI 产品又多了一个?》)
胥彪:我们其实也规划了 URL 功能,但从现有用户群来看,这样设计更合适一些。
URL 其实就是给用户提供便利,用户上传一个 URL、平台来抓取下载里面的视频、图片、以及去从产品描述里面去判断 Feature。我们不去做,一是自己本身的客户群来说,有物料的品牌客户会多一些,我们会判断这不是一个优先需求、与我们产品还在初期是有关的,另外就是许多电商平台,商家上传视频是额外收费的,例如 Amazon,可能图片会多一些,视频短缺,这也会有一定的局限。
但关于 Avatar,我们基于行业的情况,再结合一些客户反馈,确实是有些迟疑。
需要确认的一点是,有人出镜的视频效果肯定是更好的。但一是现在的客群,出海企业、东南亚企业,人的成本其实是比较低的,另一个是现在的 Avatar 在画面的一角,其实还是一眼假。这放在一些教育、PPT 演讲场景还可以,但是在营销领域就有问题。
我们的一个客户是出海眼镜品牌,已经做到全球 Top3,一个月需要找4000个博主帮他们带货,他们观察到讲英语的美国白人如果能够讲日语,这类视频在日本投放的效果会很好,但这里面一个是价格高、一个是 KOL 基本都是单语言,我们的2个 AI 功能结合是一个很好的解决方案,但他们老板很谨慎。
一是对真实的要求,口型要真实、而且这个人不会被认出来是 AI。回到营销视频对品牌的真实表达、准确表达的要求,高于娱乐视频。品牌广告可能会传达情绪价值、主观感受还会更多一些,而对于商品类广告,准确是最重要的。
白鲸出海:那我们技术这块是如何做支撑的?
胥彪:营销,同时要求准确和创意。我们是用 LLM 基础大模型+多个 CV 和语音垂类模型,再加上多个小算法的组合。什么都可以变、商品不能变,这是必须要做到的。
白鲸出海:另一类客户是之前没想到的,影视解说类的规模应该不大吧?
胥彪:其实很大,头部专业团队的员工有上百人,在 YouTube Shorts 做电影解说,每天上亿播放量。
白鲸出海:但是我们了解做这类翻译服务的产品和人都很多。
胥彪:这类翻译工作,其实非常繁琐,有很多能改进的地方。比如翻译音频和视频长度对不齐的问题,之前他们都是用人工解决,当一个语言转换成另一个语言,可能音频会变长,音频与画面不匹配,他们就认为单词修短一点,但非常繁琐。
一开始我们也以为在大模型的支持下视频翻译是非常简单的,但后来发现文字翻译和视频翻译两者之间的难度存在指数级的差异,视频里面有字幕、音频、画面,这里面会涉及几个难题,当一种语言翻译成另外一种语言的时候,字幕怎么断句、音频的长度发生变化与画面不匹配。所以功能做了挺久,5月份才上线,现在还是有一些问题。但这个确实是刚需,从注册付费转化率来看,视频翻译是高于混剪的。
另外,我们提供一个功能,客户是很喜欢的。很多视频翻译工具会把视频中的声音都当成解说全部翻译和配音出来。但其实我们看影视解说,更喜欢解说是一个声音,但是到对白的时候,希望听到原声。我们通过这种前景音和后景音的分层,把对白和旁白分开,只翻译旁白,效果会好很多。
后续我们会继续沿着这个思路去拓展短剧客户,现在如 Reelshort、Dramabox,翻译短剧的占比都很高,但是现在技术和成本的制约下,他们只翻译文案、不翻译声音。我们会专门针对短剧这类影视场景出一个功能,这里面的挑战点在于多 Speaker、声音克隆复制、但最难的其实还是情绪。
白鲸出海:电商类客户和影视类客户还挺不一样的,我们未来会放在一起吗?
胥彪:9月30日,官网上线一个2.0版本,我们的思路是 clip to video 和 video translation 作为底层的“原子能力”,未来做一个个场景抽出来。
例如实物商品和虚拟商品的成片逻辑不一样,而不同的行业,如3C、美妆、玩具也不一样;翻译也是,营销视频、娱乐视频、podcast 的翻译都不一样。AI 应用层创业,真正的机会在于往深扎,就是这里面每个场景的 know-how、洞察是不是足够。例如我们产品设计表面是简单的,步骤很少,但是在生成的过程中,其实针对不同类别、3C、服装、美妆,是有不同的模板的,而且在实时更新。
场景是一个关键探索方向,我们本来以为是需要面向行业,但后来发现,行业是一个空的东西,更多是场景问题的解决,我们做问卷的时候也发现这个问题,我们去询问行业的时候,大家选的更多是 other,但是当说来解决什么场景的问题,选择得非常清楚。我非常喜欢一个产品,Photoroom,他的 web 端对于场景有很好的设计。
Photoroom web 端部分截图
白鲸出海:我们其实对这个赛道还是挺有自己见解的,但是很多大厂都在做,Amazon、Google 都有开放一些 AI 能力,他们又是广告平台,还有 Capcut 这样的工具。
胥彪:我们也每天在考虑这个问题,投资人也在问。Capcut for Business 有一个功能叫做 URL-to-video,比市面上其他的产品效果都要更好一些。但是大厂做产品的方式我们非常清楚,一个是 Feature list 能排100多个,肯定是共性的需求先做,这个功能做完之后能给1000万人甚至更多来用,是优先性更高的,比如美白7分做到8分。另一个是大厂产品,不同功能来不同团队,不同功能之间差异特别大,最重要的,尤其 B 端产品,产品经理不是用户,不用产品。
而另一个问题,其实大广告平台一直都开放一些能力,但是通用能力,我们做下来每个场景的问题是特定的,这是存在机会的。