这是华为机器学习服务(HUAWEIMLKit)的示例代码,通过此代码可以快速了解如何集成机器学习服务提供的各项能力,如人脸检测、文本识别、图像分割等服务。
华为机器学习服务为您提供丰富的文本类、语音语言类、图像类和人脸人体类服务API,打造AI新体验,轻松构建您的AI应用。
服务介绍:文本类
文本识别:可以识别收据、名片、文档照片等含文字的图片,将其中的文本信息提取出来。文档识别:可以从含有文档的图片中,比如文章、合同等,能识别出带段落格式的文本信息。身份证识别:支持从带有身份证信息的图像或视频流中,识别出带格式的文本信息。银行卡识别:可以快速识别卡号信息,覆盖全球常见卡证类型,包括银联、美国运通、万事达(Mastercard)、Visa、JCB等。通用卡证识别:针对港澳通行证、香港身份证、回乡证等任意固定版式的卡证,基于文字识别技术,提供通用的开发框架,帮助开发者自定义后处理逻辑获取所需信息。表格识别:利用AI技术从输入的图片中识别并返回表格结构信息(包括单元格的行列信息和坐标信息)和表格中的文本信息(包括单元格内的文本内容)。语音语言类
在线文本翻译:支持将源语言文字通过云侧服务器翻译为目标语言文字。离线文本翻译:支持在下载离线模型后,可以在没有网络的情况下将源语言文字翻译为目标语言文字。在线语种检测:支持在线检测文本的语种,既支持检测单语种文本,也支持检测混合语种文本。离线语种检测:可以在没有网络的情况下检测出文本的语种,既支持检测单语种文本,也支持检测混合语种文本。实时语音识别:支持实时将短语音(时长不超过60秒)转换为文本。语音合成:支持在线将文字信息转换为语音输出,能够实时输出音频数据,并且提供丰富的音色以及可通过调整音量、语速从而使发音达到更加真实自然的效果。离线语音合成:支持下载离线模型后,即便在无网络环境下也可以将文字信息转换为语音。音频文件转写:可以将5小时内的音频文件转换成文字,支持输出标点符号,以及能够生成带有时间戳的文本信息,目前支持中英文的转写。个性化讲解视频生成:个性化讲解视频生成服务可以根据课件和讲解词自动生成讲解视频,降低视频制作过程中的投入成本,提高制作效率。实时语音转写:支持将输入的长语音(时长不超过5小时)实时转换为文本,支持输出标点符号,同时可以生成带有时间戳的文本信息。声音识别:支持通过在线(实时录音)模式检测声音事件,基于检测到的声音事件可以帮助开发者进行后续指令动作。图像类
图片分类:通过对图片中的实体对象添加标注信息,如:人、物、环境、活动、艺术形式等信息,帮助定义图片题材和适用场景等。对象检测和跟踪:您可以对图片中多个对象进行位置信息的跟踪与检测,基于此服务您可以实时定位和跟踪对象、对象分类等。地标识别:您会获得输入图片的地标名称、经纬度信息,基于获得的信息,您可以为用户创造更加个性化应用体验。图像分割:可以将图片中不同元素的内容分割出来。拍照购物:用户通过拍摄商品图片,在预先建立的商品图片库中在线检索同款或相似商品信息,返回相似商品ID和相关信息。图像超分辨率:提供1x和3x的超分功能,1x超分去除压缩噪声,3x超分不仅有效抑制压缩噪声,而且提供3倍的放大能力。文档校正:可以自动识别文档在图片中的位置,根据识别到的位置信息校正拍摄角度,同时支持用户自定义边界点位置进行文档校正,从而拍摄出文档正面图像。文字图像超分辨率:可以对包含文字内容的图片进行3倍放大,同时显著增强图像中文字的清晰度。场景识别:通过对图片的场景内容进行分类并添加标注信息,如:室外风景、室内场所、建筑物等,辅助理解图像内容。人脸人体类
人脸检测:支持检测人脸2D及3D轮廓。2D人脸检测能够识别人脸面部特征,包含表情、年龄、性别、穿戴等信息。3D人脸检测能够获取人脸关键点坐标信息、3D投影矩阵信息,以及人脸偏转角度等信息。人体骨骼检测:支持检测人体各部位关键点,能够返回关键点的人体骨骼位置数据,如:头顶、脖子、肩、肘、手腕、髋、膝盖、脚踝等。活体检测:支持不需要用户配合做动作即可识别业务场景中的用户是否为真人。手势识别:提供手部关键点识别和手势识别能力,支持检测21个手部关键点,返回关键点的位置数据。人脸比对:人脸比对服务通过识别并提取模板中的人脸特征,将模板人像和人脸图像进行高精度比对,输出相似度值,进而判断两者是否为同一个人。自然语言处理类文本嵌入:支持输入需要查询的中英文的词或句子,查询对应的向量值,并在此基础上做进一步研究。
自定义模型自定义模型服务可以帮助您定制新的模型,您可以先通过模型开发在应用中快速训练和生成模型。生成后的模型可以随应用一起打包,也可以将其上传到MLKit模型托管平台进行托管,通过MLKitSDK实现模型的下载和更新。最后您可以使用MLKitSDK,通过此自定义模型进行推理。
端侧推理框架:是机器学习服务推出的便于集成开发运行到端侧设备上的机器学习推理框架,通过引入此推理框架,您能够最小成本的定义自己的模型并实现模型推理。模型开发:提供了迁移学习和模型转换能力,目前已经为您做好了模型训练的准备工作,方便您在应用程序中快速训练和生成新模型,通过此功能进行迁移学习和模型转换,不仅灵活度高,同时也降低了学习成本。模型部署与推理:机器学习服务支持将模型放在本地集成或通过云端托管模型,可以将模型随应用一起打包,也可以将其上传到MLKit模型托管平台进行托管,通过MLKitSDK实现模型的下载和更新。预置模型:是开发者根据机器学习服务指定的基础模型以重新训练的方式来获取新模型,也是机器学习服务提供的最简单的端到端自定义模型解决方案,当前提供了图片分类和文本分类预置模型。
评论