微软机器智能公开课概览

风汇秀
2025-08-30 17:19:28
点击次数：4241

机器智能无疑是微软当前最为热门的科技概念。作为科技界的机器领军企业，微软在机器智能领域耕耘已久。公开早在25年前微软研究院建立时，课概机器智能就已经成为整个微软的微软战略目标。微软为此倾注了许多精力和资源，机器天津大学泄露全集并取得了亮眼的公开成绩，但它还有着更加宏伟的课概愿景：将机器智能带给每个人，从开发者到信息科学家，微软从工艺爱好者到学生。机器

本次公开课，公开雷锋网邀请到了微软亚洲研究院掌门人洪小文博士，课概为大家分享《微软机器智能公开课》第一章节——《微软机器智能概览》中的微软精彩内容，介绍微软在机器智能领域的机器最新研究成果以及微软的AI支持如何赋能开发者。

整套《微软机器智能公开课》已在微软虚拟学院全面上线，公开感兴趣的朋友可以点击链接（https://aka.ms/MicrosoftAIMOOC）跳转学习。

据雷锋网了解，《微软机器智能公开课》分为三大块，呈金字塔结构，最底层针对所有的开发者，涵盖认知支持Cognitive Service以及Bot Framework。杭州医科大学曝光全集中间层针对信息科学家，包括Azure Machine Learning、HDInsight、Stream Analyst等。最顶层则瞄准需要开发自己运算规则的研究者，主要工具有 Microsoft Cognitive Toolkit、Azure Data Science VM等，同时也支持其他框架，比如 TensorFlow、Caffee等。

嘉宾介绍

微软机器智能公开课概览 | 雷锋网公开课

洪小文博士，现任微软全球资深副总裁，微软亚太研发集团主席，兼微软亚洲研究院院长，全面负责推动微软在亚太地区的科研及产物开发战略，加强微软与中国和亚太地区学术界的合作。

洪小文博士是电气电子工程师学会院士（IEEE Fellow），微软杰出首席科学家和国际公认的语音识别专家。洪博士在国际著名学术刊物及大会上发表过百余篇学术论文。

以下为雷锋网对嘉宾分享内容的实录精编。

机器智能概述

很多人都在问，我们研究机器智能的目的是什么。微软的答案是：让我们的应用和支持能够拥有像人类一样认识世界的能力，在视觉、语音、语言、知识等维度得到拓展，带来更好的客户体验。

还有很多人问，机器智能该如何分类，究竟哪几部分算机器智能。机器智能工艺纷繁复杂，但微软认为可以归结为三大类：

大信息&机器学习
认知计算能力
对话即支持的体验

以智能手机为例，我们与智能手机的交互是通过不断点击屏幕上的菜单来实现的；客户需要耗费很多时间学习菜单中每个选项代表的意义。认知支持可以让我们与机器的交互变得更加简单直接，机器也能更好地了解客户的意图，不必浪费太多的沟通时间。

微软AI的增长历程

微软在AI领域耕耘已久。1991年，微软AI基础研究院成立，致力于打造一个能够听懂、看懂和理解人类以及世间万物的电脑。2007年，微软语音部门从研究部门正式转为产物部门，开启了AI的产物化道路。到2014年，在天津的一个活动中，微软系统已经能够将英文演讲实时翻译为中文了。紧接着，2015年微软亚洲研究院的计算机视觉系统首次在ImageNet上打败了人类。这套计算机视觉系统对超过2000种物体进行辨认，失误率仅为3.5%，而人类的失误率为5.5%。当时这套神经网络共有152层，如今已经增长到了上千层。

微软机器智能公开课概览 | 雷锋网公开课

但对于微软来说，人类与机器智能的关系不是谁打败谁。事实上，AI将成为人类最好的工具，能够拓展人类的智能，让人类完成更多的事情。一般我们理解的AI是Artificial Intelligence（机器智能），但也可以将其阐释为Augmented Intelligence（增强智能）。未来人类与机器密切合作，就能实现我们理想中的Superman。微软的愿景就是，通过API等方式让AI这项看似高大上的工艺平民化。有了微软的认知支持API，开发者无需自己做人脸识别、年纪识别和物种识别，只要使用相应的API，就能轻松调用这些功能，在其熟悉的领域开发应用。

微软认知支持API

微软的认知支持API主要可以归结为5大类：

视觉：从面部感官到感觉，让对话机器人了解图像、影片和情绪。
语音：把语音转换为文本，或把文本转化为语音，了解客户的意图，翻译语言，过滤噪声以及识别说话者。
语言：教对话机器人理解复杂的自然语言指令，解析复杂的文本以及理解客户情绪。
知识：从网络、学术界，或者客户自己的信息积累中融合丰富的知识。
搜索：通过必应API的强大功能，访问数十亿网页、图片、影片和新闻。

微软机器智能公开课概览 | 雷锋网公开课

微软此前和一个非营利组织达成合作，共同寻找失踪儿童，其中就用到了视觉支持中的人脸识别。利用运算规则和深度学习，系统可以了解一个人的外貌。虽然人类在成长过程中外貌会不断变化，但系统可以从数学的角度找到比例等不变的特征，从而将其辨认出来。

微软的人脸识别API，除了可以检测图片中的人脸，识别其属性；还能实现人脸验证、相似人脸搜索、人脸分组、人脸辨识等功能。此外，情绪识别也是人脸识别的关键应用之一。微软的情绪识别API并非简单反馈对象的情绪好坏，而是返回一个分值，供开发者进行判断。

微软的语音API目前已经具备了听和说的能力，支持多国语言以及多种方言。此外，声纹识别也是语音识别中非常关键的部分。通过声纹识别，系统可以辨认出说话人是谁，这对提升语音识别的准确率非常关键。尤其是在嘈杂的环境中，如果系统可以辨认出客户，那么就可以对背景声和其他人的语音进行屏蔽，实现更好的语音识别效果。

语言和语音的关系非常紧密，语音只解决了“听到”的问题，能够辨认出句子中的每一个字；但要“听懂”，了解这些句子背后的涵义，就需要用到语言能力。语言能力建立在语音的基础之上。以往很多所谓的自然交互都是通过关键字判断来实现的。比如，客户输入“帮我看看是否有违章”，系统自动检测到关键字“违章”，就能得知客户想要查询违章记录。而借助深度学习的语义理解，即使客户输入的信息中不包含关键字“违章”——比如输入“帮我看看是否有违法停车”“我昨天闯红灯了，怎么办”，系统也能理解客户的真实意图。

“知识”能力的应用场景很多，其中最具代表性的是学校，比如寻找论文等。此外，很多企业也运用到了“知识”的能力，比如利用客户产生的信息，通过深度学习，向客户提供个性化的产物和支持。