企业资讯-奢女郎生物

技术前沿｜ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像

发布时间：2023/10/17

返回列表

近日，， OpenAI 发布了名为 GPT-4V (ision) 的 ChatGPT 4 的多模态语音和图像升级版本。。。。OpenAI 公布了一份19页的GPT-4V (ision) 报告，，，题目为「ChatGPT can now see, hear, and speak」并详细介绍了该模型的相关信息。。

此功使得 ChatGPT 不只是能够解析用户输入的文本，，，它还具备识别和理解语音、、、图像的功能。。。其语音识别功能使 ChatGPT 具备了与Siri、、、、小爱同学相似的技能。。。。此外，，，，ChatGPT 提供不同的语音选项供用户选择，，并能将语音音频转化为文本，，或将播客内容翻译成其他语言。。。。

GPT-4V (ision) 的开发完成于2022年，，，并在2023年3月开始提供早期体验。。。。GPT-4V的训练策略与GPT-4保持一致，，，，首先采用大量的文本和图像资料进行初步训练，，，随后通过人类反馈的强化学习进行细化调整。。。9月底下，，，OpenAI正式官宣ChatGPT升级为多模态通用大模型。。。

多模态 ChatGPT 的主要更新点包括：

• 图像分析：升级后的多模态 GPT3.5 和 GPT4 能够解读图片中的内容，，并根据图像信息进行响应。。

• 语音处理：增加了语音交互功能。。。。其语音识别采用OpenAI的Whisper模型。。。对于语音合成功能，，，OpenAI采用新颖的“文本转语音模型”。。此功能发布后，，，用户可以选择通过配置其应用程序设置进行语音交互来激活它。。。。他们可以从五种不同的人工声音中进行选择，，，，每种声音都有独特的名称，，，例如“Juniper”、、、“Sky”。。OpenAI 强调，，这些声音是与经验丰富的配音演员合作精心策划的。。。。

01 尝鲜多模态ChatGPT

下图是让ChatGPT描述图像的一个案例：

在ChatGPT APP上与ChatGPT进行对话，，，解释最近热火的超导问题：

下面是相关的实时转录字幕：

其英文语音理解和合成的能力非常流畅和准确。。。。此外，，，我还尝试用中文、、日语、、、韩语与之交流，，，发现大部分语种都能理解和合成，，，，小编此处实在比不过。。。。也只能让他自己介绍自己会的语种：

从他的回答可以看出，，，他会很多语种，，，，但是对比普通常见的英文，，，汉语等大数据量的语种，，其小语种的识别和合成准确率还是有差距，，，这也反应了一个事实：数据规模和质量决定 AI 模型的性能。。。。由于小语种数据短缺，，，发音的特异性和语言标注较难等原因，，，，导致ChatGPT对于小语种的语音识别和合成并不是非常的准确。。。

02 如何优上更优

ChatGPT 已经非常优秀，，，，但是针对上面的小语种情况，，还是可以优化。。OpenAI官方宣布其ASR模型用的是Whisper，，Whisper的小语种识别范围广泛，，，，但是小语种ASR识别性能没有英语这类数据量多的常见语种好。。在特定小语种的使用场景下，，，可以采用小语种的数据做域的自适应。。。

小语种识别ASR的 Domain Adaptation 是指将自动语音识别技术适应到小语种或特定领域的过程。。小语种通常指的是那些相对于世界上主要语言（如英语、、、、中文、、、、西班牙语等）使用人数较少的语言。。。由于这些语言的数据资源有限，，直接训练高效的ASR模型会面临挑战。。。。

Domain Adaptation 在这里的目的是利用大量的已有资源（如大语种的预训练模型）来帮助小语种或特定领域的ASR性能提升。。。。以下是一些常用的策略：

• 迁移学习：首先在大语种上预训练一个ASR模型，，然后使用小语种的数据进行微调。。。

• 多任务学习：同时训练模型处理多种语言的任务，，，，这样可以使模型从各种语言中学习到共同的特征。。。。

• 数据增强：通过技术手段如变速、、、、变调、、、、添加噪声等方法增加小语种的训练数据量。。。

• 模拟数据：使用文本到语音（TTS）技术为小语种生成模拟的语音数据。。

• 自适应前端：设计能够适应不同语言特性的声学模型前端。。。

• 多模型融合：结合多个模型的输出来提高识别准确性。。。。

• 使用半监督学习：利用大量未标注的小语种数据与少量标注数据共同训练模型。。。

无论采用上述哪种策略，，都离不开少量但精确标注的小语种数据作为域内数据，，，，以适应预训练好的大型模型。。。。这强调了小语种数据的精确标注和采集的重要性。。这些数据在语音识别领域具有无可替代的价值，，因为它们为模型提供了必要的“指导”，，，使其能够更好地理解和处理小语种。。

奢女郎生物在语音识别领域已经拥有近20年的积累，，，覆盖全球超 200个主要语种及方言，，，，已积累近1500个自有知识产权的 AI 训练数据产品，，，，并每年持续投入研发并推出众多小语种数据。。。这些数据不仅能够为科研机构提供宝贵的资源，，，也为工业界在大模型到小语种应用场景的迁移中提供了支持。。

摩洛哥阿拉伯语识别语音库 King-ASR-908

该产品库通过单通道电话设备在较为安静的办公室/居住环境中录制了54人、、、50小时的摩洛哥-阿拉伯语对话数据。。。对话内容涉及明星、、电脑及软硬件、、教育、、、娱乐消遣、、、、家族、、、、美食、、、、交友、、健康、、、、日常生活、、、婚姻恋爱、、、、电影、、、、音乐、、、、新闻、、宠物、、时尚购物、、、、社交、、、运动健身、、旅游、、、电视节目、、、天气和工作。。。整个数据库包含录音、、、、转写、、发音词典、、、发音人信息等数据库相关文件。。

波斯尼亚语识别语音库 King-ASR-823

该产品库通过单通道手机设备在较为安静的办公室/居住环境中录制了177人、、100小时的波斯尼亚语数据。。语料领域涉及新闻、、、旅游、、、经济、、、娱乐、、运动、、、、科技、、、对话和单词。。。整个数据库包含录音、、校对、、、发音词典、、发音人信息等数据库相关文件。。。。

印地语识别语音库 King-ASR-817

该产品库通过单通道手机设备在较为安静的办公室环境中录制了721人、、、1225小时的印度印地语造句数据。。语料领域涉及通用口语、、、旅游购物、、、数字时间、、、、医疗新冠、、教育学习、、、、人名地名、、、、政治外交、、、、科技数码、、体育娱乐和社会经济。。整个数据库包含录音、、、校对、、、、发音词典、、、、发音人信息等数据库相关文件。。

了解更多语音识别数据集：https://www.dataoceanai.com/dsvoice/catid-52.htm

上一篇：再获殊荣｜奢女郎生物入选IDC中国数据智能市场生态图谱下一篇：技术前沿｜数据清洗：大模型训练前的热身