学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 投稿群聊
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • 人工智能 · ChatGPT 加入语音和图像交互,进入“多模态”新纪元

    阅读: 2023/9/27 10:20:44

    当地时间 9 月 25 日,OpenAI 宣布对 ChatGPT 进行重大更新,使基于 GPT-3.5 和 GPT-4 的 AI 模型能够具备图像和语音交互功能。这意味着,ChatGPT 能够看图、听声音和说话了。

    OpenAI 表示,在图像交互方面,更新后的 ChatGPT 能够通过识别冰箱储藏室的照片来提出晚餐吃什么的建议,也可以根据一张自行车图像指导用户如何调整座椅高度;在语音交互方面,ChatGPT 将能够利用语音合成功能与用户进行对话,用户还可以根据自己的喜好选择不同的声音类型。尽管 OpenAI 尚未发布关于这种多模态功能的技术细节,但有业内人士推测,由于多模态 AI 模型通常会将文本和图像转换为共享编码空间,这将使他们能够通过同一个神经网络处理各种类型的数据,例如使用 CLIP 来弥合视觉和文本数据之间的差异,来在同一潜在空间内将图像和文本对齐,形成一种矢量化的数据关系网络。不过,OpenAI 也指出了 ChatGPT 扩展功能仍存在限制,承认可能出现视觉幻觉(对图像的错误识别)等问题,建议用户谨慎使用,特别是在高风险或科学研究等专业环境中。(Ars Technica)

    转自:“科研圈”微信公众号

    如有侵权,请联系本站删除!


    浏览(200)
    点赞(0)
    收藏(0)
  • 上一篇:地球科学 · 2.5 亿年后地球 7 大洲或将合并成一块超级大陆,90% 以上区域令哺乳动物无法存活

    下一篇:能源科学 · 新技术可利用海水-淡水的盐差能源发电

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号