微软全球人工智能首席技术官

    黄学东,IEEE/ACM院士(IEEE/ACM Fellow) ,微软首位华人“全球技术院士”、微软首席语音科学家、微软云计算与人工智能事业部认知服务团队全球技术院士/全球人工智能首席技术官 [2-3]  。他先后获得湖南大学学士学位,清华大学硕士学位和英国爱丁堡大学博士学位。
    黄学东曾就读湖南大学计算机专业、清华大学念硕士、英国的爱丁堡大学博士学位。
    1993年,他作为高级研究员加入了微软研究所并负责组建Microsoft's 语音识别技术研究团队。
    2000年到2004年,他作为Microsoft's语音识别技术研究团队的总经理,负责微软语音技术和产品的研究、开发和市场拓展。他领导微软语音技术的开发和产品的市场行销,包括获奖的Speech Server 2004。在加入微软之前,他在卡内基·梅隆大学致力于发展CMU's Sphinx-II 语音识别系统。


    在期刊和会议上发表了一百多篇论文,并合著出版了两本非常有影响的专著即:Hidden Markov Models for Speech Recognition (Edinburgh University Press 1990)(语音识别中的隐含马尔可夫模型(爱丁堡大学出版社1990))和Spoken Language Processing (Prentice Hall 2001)(口语处理(普林斯顿出版社2001))。曾获中国教育部的科技进步奖、IEEE信息论文奖、Allen Newell杰出研究奖章,及SpeechTek的语言领域十大领军人物称号。

    2015年,黄学东领导着微软在美国、中国、德国、埃及、以色列的团队研发包含语音识别及合成,微软企业人工智能客服对话解决方案、cris.ai以及luis.ai等认知服务、CNTK开源深度学习工具等人工智能产品和技术。

    2017年,黄学东被评选为微软技术院士(Technical Fellow),这代表着微软技术人员的最高荣誉,获得这一荣誉的人还包括图灵奖得主Butler W Lampson、Charles P. Thacker等。黄学东也是微软首位华人技术院士。同时,他也是国际电子电气工程师学会(IEEE)和美国计算机学会(ACM)的双科院士,微软认知工具包CNTK的缔造者之一。

    在黄学东的带领下,微软人工智能团队取得了多项里程碑式的技术突破,最新创造的成就如下:

    2017年8月,在黄学东的带领下,其团队在产业标准Switchboard语音识别基准测试中实现了对话语音识别词错率(word error rate,简称WER),低至5.1%,创造了当时该领域内错误率最低纪录,首次达成与专业速记员持平而优于绝大多数人的表现。

    2018年3月份,黄学东带领的团队在机器翻译领域拿下一项里程碑式的成就:其研发的机器翻译系统在通用新闻报道的newstest2017中译英测试集上,达到了人工翻译水平。这是首个在新闻报道的翻译质量和准确率上媲美人工翻译的翻译系统。

    2019年,在斯坦福对话式问答任务中,微软机器阅读理解系统刷新记录,成为目前排行榜上唯一一个模型分数超过人类分数的团队。

    2020年,在计算机视觉看图说话任务中,微软计算机视觉图形传字幕(image captioning)系统刷新记录,成为在此研究任务上全球首个超过人类分数的团队。

    2020年,微软的人工智能技术帮助BBC合成了可以媲美播音员的BBC人工智能之音广播所需要的新闻和故事。

15岁考入湖南大学,30岁进入微软。

他带着团队实现了“达到人类专业水平”,包括语音识别、图像字幕、自然语言处理等多项人工智能技术;

2016年,Wired杂志评选他为全球创造未来商业的25位大牛天才之一;

2017年,他被评为“微软全球技术院士”,成为微软首位华人“全球技术院士”,他是首位在微软通过技术路线走到最高层的华人;

作为AI领域全球顶尖专家之一,湖南大学78级校友黄学东至今已在专业领域里坚守40多年,一路走来攻坚克难,缔造了数不清的“传奇”。

日前,融媒体中心记者连线美国西雅图,带你一起走近黄学东。


他是信仰语音技术的“老男孩儿”


科幻电影中,人工智能的生动应用让观众对AI技术的未来前景有着不一般的憧憬。星际迷航般的科幻愿景是否能成为现实?这不是科幻大片,也不是小说情节,是科学家正在全力研究与攻克的时代主题。

黄学东在CVPR 2022大会作计算机视觉主题演讲。

黄学东信仰语音技术,深耕语音语言和人工智能,在此领域攻关40年。

“在人类进化的长河中,语音和语言是最重要的因素。我希望让语言能够被自如地使用,而不再是人与人之间交流的障碍,这件事情对于人类非常有意义。”黄学东说。

1993年,黄学东从卡内基梅隆大学加入了微软研究院并负责组建微软公司语音识别技术研究团队,正式开启他的“人工智能语音识别工业化之梦”。

音频转换成文字的过程,这个过程相当复杂。黄学东说:“因为语意没有音义,我讲了一句话具体是什么意思,你要把它翻译成文字定义是非常清楚的,但意义每个人都有不同的理解。这才是人工智能最核心的关键!”

作为微软语音识别技术的创立者和资深老将,2017年2月,黄学东当选微软全球技术院士(Technical Fellow),进一步奠定了自己在微软的技术领袖地位。这代表着微软技术人员的最高荣誉,相当于微软的与全球资深副总裁同级别。

在他的带领下,微软人工智能团队创下了举世瞩目的成就,缔造了无数个“神话”。

2017年8月,在黄学东的带领下,其团队在产业标准Switchboard语音识别基准测试中实现了对话语音识别词错率(word error rate,简称WER),低至5.1%,创造了当时该领域内错误率最低纪录,首次达成与专业速记员持平而优于绝大多数人的表现。

次年3月,黄学东带领的团队在机器翻译领域拿下一项里程碑式的成就:其研发的机器翻译系统在通用新闻报道的newstest 2017中译英测试集上,达到了人工翻译水平。这是首个在新闻报道的翻译质量和准确率上媲美人工翻译的翻译系统。

2020年,黄学东被提拔为微软全球人工智能首席技术官,领导新统一的AI认知服务工程和研究团队,包括微软公司主要的人工智能产品团队覆盖了计算机语音、计算机视觉和自然语言理解的人工智能三大核心支柱。

在新冠疫情背景下,黄学东团队为美国疾病控制中心、意大利国家邮局和世界卫生组织开发了健康问答查询系统,为全人类带来健康服务。

该团队开发的Azure AI认知服务,为从微软及第三方服务和应用程序提供支持。Azure AI于2021获评InfoWorld年度技术奖。

今年5月,黄学东领衔的该团队重磅发布“视觉-语言-语音”多模态预训练模型 i-Code。在5项多模态视频理解任务以及GLUE NLP任务上树立了业界新标杆。

上月,第六届世界智能大会在天津举办。期间,来自不同国家、不同行业的专家学者、企业家以视频的方式共聚“云端”,就人工智能、企业数字化转型等热点话题交流观点,探讨智能科技发展新风向。黄学东分享了他的团队在视觉、语音、语言、决策等方面为企业提供的人工智能服务和最新的技术成果,他表示,利用人工智能,可以进一步增强为各行各业提供全方位服务的能力。

“微软认知服务已经在提高语言覆盖率、质量和定制能力方面取得了巨大进展,这项服务已经达到了一个关键的里程碑。目前支持超过120种语言,并且还在不断增加。AI质量是开发者选择服务时最关键的因素。”黄学东在发言中介绍,目前,理想、小鹏、长城等不少中国车企品牌都采用了微软的语音技术为车载语音导航提供背后的服务。

黄学东说:“最大的感触是常常觉得时间不够用,希望技术有一天可以跑赢时间。”与时间赛跑,早已经成为了他的一种工作常态。


“我曾经每天都从书院对联下经过”


惟楚有材,于斯为盛。人才济济,英才辈出。

“外界看到更多的是我在微软的成就,但湖南才是我梦开始的地方,”黄学东说,“我在湖南大学,打下了良好基础。奠定了通往一流科技工程正道之门的基石。”

“我是正宗的长沙伢子!”虽然离乡多年,但在与记者的连线采访中,黄学东仍旧骄傲地自我介绍。

他打小品学兼优,中学就读于长沙市第十五中学,成绩在班上名列前茅。

1978年,恢复高考后全国统一考试。黄学东自修了数、理、化等相关科目。“我觉得也不是很难,高考成绩超过了重点大学录取线,”黄学东回忆说,“当时年纪小,母亲不想我去太远的地方,我就报了心中在湖南最好的大学,湖南大学,第一志愿!”

年仅15岁的黄学东和姐姐一起考入湖南大学,被录取在电子工程系。他当时是年龄最小的同学之一。

“我们班上有40几个同学,大家学习很自觉,数学、物理、外语等基础课学得特别扎实。”黄学东回忆说,大学期间最喜欢的一件事,就是每天和同学一起跑步或者散步去爱晚亭,海阔天空地讨论各种问题,几乎每天都要从宿舍经过岳麓书院,看看书院门前“惟楚有材,于斯为盛”这幅对联。

“‘爱晚亭78’就是我们班的微信群名。”黄学东笑着说。

岳麓书院门前的对联。陈佳祺/摄

“湖大有着光荣的历史,也是我梦想开始的地方。”在湖大校园里,黄学东开始接触计算机科学,打下了学术研究的基础。当年的文中坚老师“人工智能导论上得非常好”,点燃了他对人工智能方向的热情;邱光谊老师的《数据结构》令他印象深刻;还有谢莎莉老师在Pascal语言方面的研究教学,“可以说在当时是超越了中国大多数高校的。”

“湖南大学最大的底气正是源于千年学府的底气,名校都应该是有历史的。”黄学东说。

1982年,19岁的黄学东考入清华大学,在计算机系攻读人工智能方向研究生。硕士时,主攻人工智能和语音识别;博士时,由于当时计算机系他的研究方向还没有博士,所以在学校的灵活安排下他跟随计算机系的方棣棠先生和自动化系的常迥先生继续学习;

1987年,在学校的允许和导师的推荐下,黄学东以清华和爱丁堡大学联合培养的博士项目出国深造,开启通往世界一流的道路;

1989年,他在拿到博士学位之后加盟了计算机专业的世界顶级名校美国卡耐基梅隆大学致力于语言识别研究。三年后,由他领导开发的语音识别系统得到了全美DARPA所有测试指标的各项第一名。


“为了让科研成果获得更大社会效益”


在世界顶级学府里做研究,当你的理论成果变为论文发表后,有多少点击?而进入顶级科技公司做研发,让全球10亿多用户能够运用到你的科研成果,将产生多大的效应?

1993年,经历了与公司半年多时长的接洽与考量,他选择从学术界转向工业界,正式加盟微软研究院、组建语音识别技术研究团队,随后开启了事业上的高光时刻。

黄学东近照。

回顾成长经历,从湖大到清华,从爱丁堡大学到卡耐基梅隆大学,“我每隔三四年,就会换一个地方,但在微软,我已经干了30个年头。”黄学东说。

这位曾经让比尔·盖茨青睐的华人,不仅是一个创新者,而且是一个有力的执行者。

“微软是一个很优秀的公司,它的理念是帮助每一个人实现更多的梦想。”黄学东说,“在微软,创新大于一切。创新才是世界、是社会发展的动力根源。”

“学习要融会贯通,千万不要读死书!”黄学东说,可以找不同角度来研究教科书的示例问题,从各个方面综合起来,看看不同观点和想法,把问题真正读懂弄透。

“搞科研也是一样的道理,没有深入理解谈何突破,没有创新谈何真正进步。希望看到涌现出有创新精神、有闯劲的人才,鼓励有更多的学生能勇于打破常规思维桎梏。”这是黄学东的初衷。

“技术总是在短期内被高估,但是在长期又被低估。”“我现在干劲十足、工作分秒不懈,我要让人工智能继续发扬光大,让更多的人使用微软认知服务API。”黄学东说。

从长沙到北京,从爱丁堡到西雅图,黄学东的足迹跨越了大半个地球。从理论研究到经世致用,从科技研发到市场拓展,在岳麓山下校园的熏陶在骨血中影响着他,始终牢记“实事求是、敢为人先”的湖大校训,黄学东以勇敢的姿态奔赴在科技前沿。


序号 名称
您需要订阅学者后可以查看合作学者!
序号 名称   论文数量
1工学------------论文:6篇
2计算机科学与技术------------论文:4篇
序号 名称   论文数量
1INT CONF ACOUST SPEE------------论文:24篇
2IEEE T SPEECH AUDI P------------论文:4篇
3COMMUN ACM------------论文:3篇
4SPEECH COMMUN------------论文:2篇
5COMPUTER------------论文:1篇
6IEEE SIGNAL PROC MAG------------论文:1篇
7CH CRC MACH LEARN PA------------论文:1篇
8IEEE-ACM T AUDIO SPE------------论文:1篇
9J VLSI SIG PROC SYST------------论文:1篇
10INTERSPEECH------------论文:1篇
11IEEE T SIGNAL PROCES------------论文:1篇
12PR MACH LEARN RES------------论文:1篇
13IEEE INT CONF BIG DA------------论文:1篇
序号 名称   论文数量
1IEEE SIGNAL PROCESSING MAGAZINE(工程技术)------------论文:1篇
您需要订阅学者后可以查看Email信息!
您需要订阅学者后可以查看发文曾用名!
您需要订阅学者后可以查看机构轨迹!
全球学者库

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"全球学者库"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前全球学者库共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2023 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3