交大教授:“技术下放”产生有趣应用

最新信息

交大教授:“技术下放”产生有趣应用
2023-11-01 06:20:00
究竟是什么科技“魔力”让郭德纲、于谦、泰勒·斯威夫特等明星掌握了外语呢?记者昨天采访了上海交通大学计算机科学与工程系教授赵海。他表示,制作这些视频用了文字生成、语音合成、视频生成等三个模态的人工智能技术,技术团队将它们集成在一起,开发出一个系统解决方案。“没有很高的科技含量,这些技术在电影、动画行业已有大量应用,但成本比较高。如今,随着GPU运算成本的下降,出现了‘技术下放’,让我们可以在网络视频中看到多模态人工智能技术的有趣应用。”
  据赵海教授分析,在文本上,“郭德纲讲英文相声”利用了AI模型的文字生成技术,随着ChatGPT和国产大语言模型的问世,这种技术已为公众所了解;在语音上,语音合成已是很成熟的技术,只要输入一个人的几分钟语音信号,软件系统就能合成他的逼真语音,让他“说”出任何文本内容;在视频上,人工智能生成技术也发展到了很高水平,只要算力足够强,生成视频中人物的动作、表情会很逼真。
  至于“郭德纲讲英文相声”的口型为何没有违和感,赵海认为这没有技术难度,口型与元音、辅音的匹配是有规律的,只要根据基本规律调整口型,制作郭德纲讲英文、斯威夫特讲中文的视频,都可以做到“天衣无缝”。
  随着自然语言对话、语音合成、视频生成等多模态AI技术日益成熟,“数智人”正在进入我们的生活。除了在网络视频中崭露头角,他们还可以成为4S店导购、银行大堂经理等,应用于一些线下场景。这些“数智人”会像人一样与客户对话、回答问题,表情和动作都比较自然。当然,“数智人”在线下场景部署的成本目前还比较高,尚未推广开来。
  谈及“数智人”在网络上的应用前景,赵海认为,从“郭德纲讲英文相声”的火爆中可以看到他们的一大应用场景——明星直播带货。“随着多模态人工智能技术的成熟和成本下降,企业可以与明星签约,获取他们的数字形象,用这些形象做明星品牌代言和直播带货。”这意味着,明星不必“亲自”代言拍广告,更不必参与耗时很长的直播活动,只要让企业采集他们的形象和语音即可。人工智能系统会根据采集到的形象和语音,生成以假乱真的明星“数智人”。在法律框架内和AI技术支撑下,“数智明星”有望取代直播带货真人网红,达到更好的带货效果。
  在赵海看来,明星直播带货可能对直播行业造成颠覆性影响。一批“数智明星”如果进入这个行业,很多真人网红就不会那样炙手可热。从技术发展趋势来看,这将是一种“技术下放”的结果。目前在“漫威”等影片摄制中,一些演员其实已经是“数智明星”,他们的很多酷炫动作都是后期电脑生成的,不需要替身完成。随着人工智能等新技术的下放应用,“数智明星”在网络视频和直播中也会有更多的出场时间。
(文章来源:解放日报)
免责申明: 本站部分内容转载自国内知名媒体,如有侵权请联系客服删除。

交大教授:“技术下放”产生有趣应用

sitemap.xml sitemap2.xml sitemap3.xml sitemap4.xml