企业资讯

首页 关于我们

企业资讯

技术前沿|ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像
发布时间:2023/10/17
返回列表
近日,, OpenAI 发布了名为 GPT-4V (ision) 的 ChatGPT 4 的多模态语音和图像升级版本。。。。OpenAI 公布了一份19页的GPT-4V (ision) 报告,,,题目为「ChatGPT can now see, hear, and speak」并详细介绍了该模型的相关信息。。
此功使得 ChatGPT 不只是能够解析用户输入的文本,,,它还具备识别和理解语音、、、图像的功能。。。其语音识别功能使 ChatGPT 具备了与Siri、、、、小爱同学相似的技能。。。。此外,,,,ChatGPT 提供不同的语音选项供用户选择,,并能将语音音频转化为文本,,或将播客内容翻译成其他语言。。。。
GPT-4V (ision) 的开发完成于2022年,,,并在2023年3月开始提供早期体验。。。。GPT-4V的训练策略与GPT-4保持一致,,,,首先采用大量的文本和图像资料进行初步训练,,,随后通过人类反馈的强化学习进行细化调整。。。9月底下,,,OpenAI正式官宣ChatGPT升级为多模态通用大模型。。。
多模态 ChatGPT 的主要更新点包括:
•  图像分析:升级后的多模态 GPT3.5 和 GPT4 能够解读图片中的内容,,并根据图像信息进行响应。。
•  语音处理:增加了语音交互功能。。。。其语音识别采用OpenAI的Whisper模型。。。对于语音合成功能,,,OpenAI采用新颖的“文本转语音模型”。。此功能发布后,,,用户可以选择通过配置其应用程序设置进行语音交互来激活它。。。。他们可以从五种不同的人工声音中进行选择,,,,每种声音都有独特的名称,,,例如“Juniper”、、、“Sky”。。OpenAI 强调,,这些声音是与经验丰富的配音演员合作精心策划的。。。。
 
01 尝鲜多模态ChatGPT
 
下图是让ChatGPT描述图像的一个案例:
 
在ChatGPT APP上与ChatGPT进行对话,,,解释最近热火的超导问题:
 
下面是相关的实时转录字幕:
 
其英文语音理解和合成的能力非常流畅和准确。。。。此外,,,我还尝试用中文、、日语、、、韩语与之交流,,,发现大部分语种都能理解和合成,,,,小编此处实在比不过。。。。也只能让他自己介绍自己会的语种:
 
从他的回答可以看出,,,他会很多语种,,,,但是对比普通常见的英文,,,汉语等大数据量的语种,,其小语种的识别和合成准确率还是有差距,,,这也反应了一个事实:数据规模和质量决定 AI 模型的性能。。。。由于小语种数据短缺,,,发音的特异性和语言标注较难等原因,,,,导致ChatGPT对于小语种的语音识别和合成并不是非常的准确。。。
 
 
02  如何优上更优
ChatGPT 已经非常优秀,,,,但是针对上面的小语种情况,,还是可以优化。。OpenAI官方宣布其ASR模型用的是Whisper,,Whisper的小语种识别范围广泛,,,,但是小语种ASR识别性能没有英语这类数据量多的常见语种好。。在特定小语种的使用场景下,,,可以采用小语种的数据做域的自适应。。。
小语种识别ASR的 Domain Adaptation 是指将自动语音识别技术适应到小语种或特定领域的过程。。小语种通常指的是那些相对于世界上主要语言(如英语、、、、中文、、、、西班牙语等)使用人数较少的语言。。。由于这些语言的数据资源有限,,直接训练高效的ASR模型会面临挑战。。。。
Domain Adaptation 在这里的目的是利用大量的已有资源(如大语种的预训练模型)来帮助小语种或特定领域的ASR性能提升。。。。以下是一些常用的策略:
•  迁移学习:首先在大语种上预训练一个ASR模型,,然后使用小语种的数据进行微调。。。
•  多任务学习:同时训练模型处理多种语言的任务,,,,这样可以使模型从各种语言中学习到共同的特征。。。。
•  数据增强:通过技术手段如变速、、、、变调、、、、添加噪声等方法增加小语种的训练数据量。。。
•  模拟数据:使用文本到语音(TTS)技术为小语种生成模拟的语音数据。。
•  自适应前端:设计能够适应不同语言特性的声学模型前端。。。
•  多模型融合:结合多个模型的输出来提高识别准确性。。。。
•  使用半监督学习:利用大量未标注的小语种数据与少量标注数据共同训练模型。。。
无论采用上述哪种策略,,都离不开少量但精确标注的小语种数据作为域内数据,,,,以适应预训练好的大型模型。。。。这强调了小语种数据的精确标注和采集的重要性。。这些数据在语音识别领域具有无可替代的价值,,因为它们为模型提供了必要的“指导”,,,使其能够更好地理解和处理小语种。。
 
奢女郎生物在语音识别领域已经拥有近20年的积累,,,覆盖全球超 200个主要语种及方言,,,,已积累近1500个自有知识产权的 AI 训练数据产品,,,,并每年持续投入研发并推出众多小语种数据。。。这些数据不仅能够为科研机构提供宝贵的资源,,,也为工业界在大模型到小语种应用场景的迁移中提供了支持。。
 
摩洛哥阿拉伯语识别语音库 King-ASR-908
该产品库通过单通道电话设备在较为安静的办公室/居住环境中录制了54人、、、50小时的摩洛哥-阿拉伯语对话数据。。。对话内容涉及明星、、电脑及软硬件、、教育、、、娱乐消遣、、、、家族、、、、美食、、、、交友、、健康、、、、日常生活、、、婚姻恋爱、、、、电影、、、、音乐、、、、新闻、、宠物、、时尚购物、、、、社交、、、运动健身、、旅游、、、电视节目、、、天气和工作。。。整个数据库包含录音、、、、转写、、发音词典、、、发音人信息等数据库相关文件。。
波斯尼亚语识别语音库 King-ASR-823
该产品库通过单通道手机设备在较为安静的办公室/居住环境中录制了177人、、100小时的波斯尼亚语数据。。语料领域涉及新闻、、、旅游、、、经济、、、娱乐、、运动、、、、科技、、、对话和单词。。。整个数据库包含录音、、校对、、、发音词典、、发音人信息等数据库相关文件。。。。
印地语识别语音库 King-ASR-817
该产品库通过单通道手机设备在较为安静的办公室环境中录制了721人、、、1225小时的印度印地语造句数据。。语料领域涉及通用口语、、、旅游购物、、、数字时间、、、、医疗新冠、、教育学习、、、、人名地名、、、、政治外交、、、、科技数码、、体育娱乐和社会经济。。整个数据库包含录音、、、校对、、、、发音词典、、、、发音人信息等数据库相关文件。。
 
了解更多语音识别数据集:https://www.dataoceanai.com/dsvoice/catid-52.htm
 

分享到微信朋友圈

打开微信,,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。。。

站点地图