7月19日,微软召开“Inspire 2023”大会,公布了Azure云服务多个新AI功能,包括,向量搜索(也叫矢量搜索)、Whisper音频模型、Llama 2大语言模型和自定义神经语音 (CNV) 等(体验地址:https://azure.microsoft.com/en-us/homepage-b/)。
其中,向量搜索是增强生成式AI功能的一项关键技术,目前已提供预览版;Whisper是OpenAI出品的语音模型,可以高效转录57种常用语音,将很快在Azure中推出;Llama 2是Meta最新发布的大语言模型,可在Azure上轻松部署70亿、130亿和700亿参数的模型,已推出预览版。
自定义神经语音可帮助用户合成生气、快乐、恐惧、严肃等风格的语音,适用于有声读物、新闻播报、语言学习、语音助手等业务场景。
值得一提的是,向量搜索是微软、谷歌、Meta、百度等科技巨头使用的一项小众技术。随着智能问答小助手等生成式AI的飞速发展该技术被广泛熟知、应用,是生成式AI应用必备功能之一。下面「AIGC开放社区」详细为大家介绍这些新的AI产品。
向量搜索
向量搜索是一种数据检索方法,旨在克服传统基于关键字搜索的限制。向量搜索使用机器学习模型来捕获上下文中单词和短语的含义,而不是仅仅依赖于词法分析和单个查询词的匹配。
向量搜索通过将文档和查询表示为高维空间(称为嵌入)中的向量来完成,使用嵌入捕获查询的意向,向量搜索可以返回更符合用户需求的相关结果,即使文档中没有确切的术语。
向量搜索的技术原理是,将非结构化数据(文本、图像、视频、音频等)转换为高维向量,然后在这个高维向量空间中搜索最接近查询的数据。向量搜索在计算机视觉、自然语言处理、推荐系统等非常有用。
向量搜索主要功能文本的向量搜索:使用嵌入模型(如 OpenAI)或开放源代码模型(如 SBERT)对文本进行编码,并使用同样编码为向量的查询检索文档。
跨不同数据类型的混合搜索:可以对图像、文本、音频和视频进行编码,甚至将其混合进行编码,并对其执行相似性搜索。
多语言搜索:使用多语言嵌入模型在单个向量空间中以多种语言表示文档,以查找文档,而不考虑它们使用的语言。
混合搜索:向量搜索是在字段级别实现的,这意味着可以生成包含向量字段和可搜索文本字段的查询。查询并行执行,结果合并到单个响应中。添加语义搜索 (预览)使用支持Bing的同一语言模型重新进行 L2 重新运行,从而获得更高的准确度。
筛选的向量搜索:查询请求可以包含向量查询和筛选表达式。筛选器适用于文本和数字字段,可用于根据筛选条件包括或排除搜索文档。
向量数据库:用来存储非结构化数据,例如,文档、图片、视频、音频和纯文本等,在保证100%信息完整的情况下,通过向量嵌入来精准描写这些非结构化数据的特征,从而提供查询、删除、修改、元数据过滤等操作。
目前,微软已经将向量搜索功能无缝集成在Azure OpenAI中,使得用户可以开发更强大的生成式AI应用,例如,高效、准确地从大型混合数据集中搜索信息。
Llama 2
Llama 2是科技巨头Meta最新发布的开源大语言模型。用户可以在Azure上,安全可靠地使用或微调70亿、130亿和700亿三种参数的LLama 2模型。
同时Llama 2可以在Windows上本地运行,这使得Windows开发人员将能够通过ONNX以DirectML执行提供程序为目标来使用该模型,从而在为应用程序集成生成式AI体验时实现无缝工作流程。
Windows开发人员还可以通过GitHub Repo进行访问。借助适用于Linux的Windows子系统和高性能GPU,开发人员可以在Windows PC上微调LLM以满足他们的特定业务需求。目前,Llama 2是预览版状态。
Whisper
Whisper是OpenAI发布的一款语音模型,可以精确高效地转录57种语言,例如,将中文语音转录成英文。
Whisper支持批量转录、异步处理、扬声器分类、自定义等功能,最大支持1GB文件,单个请求中可批量处理多达1000个文件,极大提升了转录效率。
Whisper将很快在Azure OpenAI服务中推出预览版,同时会为用户提供企业级安全,严格保护用户的音频数据隐私,不会搜集用户数据用来训练AI模型。
自定义神经语音
自定义神经语音是Azure AI语音的一项功能,可以帮助用户创建与配音员相媲美的自然语音。这项功能适用于有声读物、新闻播报、在线教育等业务场景,用户可以开发愤怒、快乐、兴奋、友好、希望、悲伤、大喊、害怕等多种风格语音。同时,自定义神经语音支持音频风格迁移,无需添加新的训练数据即可实现。
目前,自定义神经语音已全面上市,已帮助AT&T、Progressive、Vodafone和Swisscom等知名企业开发了多种语音解决方案。