对话数据科学助理教授凌舒扬

总是穿着休闲装出没于教学楼,乍一看可以混入学生之中,初次见面,你可能想象不出他是一位大学博导——这就是秋季学期刚刚加入上海纽约大学的凌舒扬教授。​​

凌舒扬教授来自浙江省,自本科起,他便与数学结缘,并一路获得了应用数学博士学位。作为一名关注社会的数学研究者,凌舒扬教授十分乐于思考数学对于实际社会问题的影响,所以博士毕业的他选择前往纽约大学柯朗数学科学研究所和数据科学研究中心,专注于数据科学领域的研究,将数学知识应用于现实问题。今年,他加入上海纽约大学,成为了新的数据科学博士项目首位驻上海的导师,进一步加强了上纽大数据科学领域的研究实力。我们和他聊了聊他的研究经历,以及被他称为“当代石油”的学科——数据科学。

 
Ling Shuyang Q&A 1
 

问:是怎样的契机让你学习了数学专业,又进入了数据科学领域?

答:其实开始学习数学也是很偶然的机会。我在高中时对未来的职业规划并不多,只是单纯理科成绩不错,想着数学是基础学科,以后比较容易转行,就选择了这个专业。

后来我进入到应用数学领域。因为我的研究方向和工程、计算机、统计等学科都有关系,所以接触到更大的学术圈,也和更多的同行进行了交流,这让我觉得很开心。

我目前从事数据科学领域的研究,这个学科和纯数学的差别在于它的研究动机是基于实际问题的,比如探索如何运用大数据提升用户体验,而不是纯理论研究。但同时,这其中的很多问题又需要运用数学工具来解决,比如社交媒体的数据挖掘,就涉及算法问题。我刚刚加入了学校的数学联合研究中心,这里有许多在学术界名声显赫的数学教授和访问学者,相信我们未来会有跨学科研究的合作机会。

问:如今,各行各业都在积极运用数据来助力发展,“大数据”等概念也变得耳熟能详,可以具体介绍一下这门学科对当今世界发展的意义吗?

答:数据科学目前还没有一个明确的定义,但总体来说和几个传统领域相关:首先是计算机,比如最近非常活跃的机器学习,通过机器算法做一些人脸识别、信用评估等;此外跟统计也非常有关系,比如经济统计、生物统计这些;还有一部分就是和信号处理、图像处理有关。

如今的数据科学和过去最大的区别在于数据量:过去从临床实验等渠道获取的数据量没有那么大;现在的数据库,比如淘宝每天的用户行为数据,体量是相当庞大的。如何针对这一量级的数据进行挖掘和学习,是当前的一个主流问题。

数据科学在接下来的二十年会成为一个新的发展动能,甚至像蒸汽机、电器和因特网一样推动下一次工业革命。接下来的经济用什么驱动呢?答案就是数据。可以说,数据就是现在这个时代的石油。

问:您提到自己是一个关注社会问题的人,那么除了数据科学给经济带来的动能,您还看到了这门学科对社会的哪些影响?

答:数据科学给我们的生活带来便利,但便利其实也是具有两面性的。比如上网浏览时,cookie会记录下你的浏览信息,虽然这些信息会被用于提升用户体验,但还是免不了有公司以此谋利。隐私和便利性就像一种交易,牺牲更多的隐私就能获得更多的方便,但关键在于要让大众意识到这一情况的存在。

过度的便利也会阻碍人和人的沟通,比如我点个外卖,就可以自己吃;打车只需要叫车软件,不需要跟司机交流;问路也可以用手机,完全是一个人。而且长此以往,你的生活就会变得“模块化”,也就是被若干个APP“隐形地支配”,形成了一种固定的模式,这会阻碍生活的新鲜感和创造力,市场产品的多样性也会受到影响。

除此之外,大数据也能知道你的所有偏好,并按照你的兴趣做推送,让内容越来越对你的胃口。这是一把双刃剑:好处是你看到的都是你喜欢的,弊端则是你会一直往同一个方向前进,从而屏蔽了看待事物的更多角度,观点变得越来越单一、极端化,这是一个我比较担心的问题。

问:在数据科学大热的背景下,许多学校都开设了相关专业,那么上海纽约大学的的数据科学研究有何特别之处?

答:纽约大学本身就处于数据科学研究的先驱者行列,是全球较早设立独立机构进行数据科学研究的大学之一,上海纽约大学将能充分利用纽约大学的优质学术资源。我之前也在纽约大学柯朗数学科学研究所和数据科学研究中心工作过,所以相信未来我们双方会有很多的合作机会,并能通过纽约大学的国际平台接触到更多前沿问题和国际趋势。

另一方面,上海一直在中国经济、金融、制造业等领域的发展中占有核心地位,我们的学校立足于这座城市,有机会和这里的不同行业和企业进行交流,也就能够触及中国最有价值的问题。而上纽大处于东西方的交汇点,同时联通了中国这一发展最快的经济体,以及美国这一科技强国,这使我们能够用最国际化的眼光和方法去探索最前沿的问题。

问:根据麦肯锡的一份调查报告,截至2018年,仅美国就有14-19万的深度数据分析人才缺口。面对巨大的市场需求,想投身于或转行到数据科学领域的人越来越多。那么投身这一领域需要怎样的资质?对于想要申请数据科学博士项目的同学,你有什么建议?

答:从数据科学的专业角度来说,有些学科确实会比较重要,比如计算机算法、编程背后涉及许多数学和计算机问题,所以你要在微积分、线性代数、概率论这些课程中打好基础,也需要有计算机知识背景。但总的来说,随着各行业越来越认识到数据科学的重要性,不同领域都需要运用它,所以它也必将越来越普及,就读门槛逐渐降低,向更多人开放,并能碰撞出不同的火花。

对于想申请的同学,我们当然首先希望他们能接受到比较严谨和完整的数学训练,有比较好的理科背景。但除此之外,我们也期待他们能够关心社会问题,了解数据科学会对现实社会产生怎样的影响。