感觉是真的,但是可能之前进行过多次练习了吧
感觉是真的,但是可能之前进行过多次练习了吧
确实这挺好的,以后没事就跟豆包 AI 吵架练习,然后运用到生活中「比如一些女朋友们】绝对破防
还是理解不了,为什么豆包从 TTS 再到内容生成,这一套下来能这么快
猜测是不是做了一些流式优化?就是在你说话的过程中,他就已经开始预回复了
整反了,是 STT→内容生成→TTS
豆包是 Omni 模型吧 训练时同时训练文本内容+语音内容 之前做数字人都是要做个 ASR+LLM+TTS,这种的话对实时聊天来说延迟是绝对不可接受的,而这种 Omni 模型拿来做虚拟老婆/数字人就挺香的
Qwen 有开源过 Omni 类的模型 你可以看看这个 Qwen3 Omni 的技术报告 https://arxiv.org/abs/2509.17765
太有节目效果了,感觉像个真人~
节目效果拉满了
还看到一个评论说:如果老罗把留给 AI 的气口和话口也留给王自如的话他还不一定输
前天的旧新闻了,老罗一直很有节目效果