← 返回主报告:[Podcast·2026-W19] Report
Sequoia Capital — ElevenLabs’ Mati Staniszewski: How Voice Becomes the Interface for AI
- Group: vc
- Channel: @sequoiacapital
- Published: 2026-05-06
- Duration: 26m
- Language: en (auto)
- Evidence: youtube_subtitles
TL;DR
ElevenLabs CEO Mati Staniszewski 在 AI Ascent 2026 复盘:4 年公司、约 400 人、年收入超 4 亿美元,是少数没走"先募几亿美元再谈商业化"路线的前沿模型公司。起点是波兰从小到大用单声道男声配所有外语电影的别扭体验,他与儿时挚友 Piotr 押注音频领域——2022 年彼时 AI 圈还在追文本与视觉,音频被视为小众,研究者不多反成机会。技术路径:音频模型更小,所需算力远低于 LLM;数据真正瓶颈在转录与标注,他们靠自建数据飞轮+架构创新解决。商业打法:从第一天开始收费、远程团队保持效率,让公司能在没有持续巨额募资的情况下成为前沿实验室。Voice Agent 现已超越客服场景:替乌克兰政府做战时公民信息热线(前线、教育、防空)、帮 Masterclass 把 Gordon Ramsay/Chris Voss 这类静态课程升级为可对话互动版。可操作观察:Mati 把"情商"——能识别对方情绪并相应改变语调——视为下一个前沿;声音比文本更容易跨进 robotics 与端侧设备;垂直化(医疗 vs. 金融 vs. 教育)比通用模型层更出 moat,专注研究 + 用户偏好回流的飞轮才是真正壁垒。