数据科学和历史专业学生联手,探究纽约当地移民的生活

Historical photo of richly decorated Chinese restaurant in late 19th century
2020年10月26日

20世纪初的纽约风起云涌,日新月异。在全市340万人口中,外来移民占比超过三分之一。他们在不知不觉中改变着城市面貌,将纽约塑造成当今世界的多元化与国际化之都。

这130万新入驻的纽约客们是谁?他们的日常生活是怎样一番面貌?22名上纽大学生在暑期通过大数据分析和跨学科合作开展研究,揭开了这些移民生活经历的神秘面纱。

这项研究是纽约大学“人文研究实验室”的一部分。“人文研究实验室”是由上纽大历史学助理教授Heather Lee领导的一项为期一学期的研究计划,最初在2018年春季与纽约大学历史学教授David Ludden共同发起。四学期来,Lee教授带领纽约大学三大门户校园的学生,对美国第一大数据源“美国人口普查”中的数百万数据,以及来自企业目录、执照许可记录、历史地图和其他人口调查等信息源的大量数据进行了数字化、分析和绑定处理,帮助学生确定移民生活轨迹的重要模式。该研究旨在利用数字技术,为移民历史提供详细、可靠的解读。

研究团队成员覆盖人文、商学与金融、计算机科学、数据科学四个专业的学生。他们被分成四个跨学科研究小组。每组负责一个主要的数据挖掘和数据提炼任务,包括训练计算机更高效准确地阅读历史文件、探索确定餐厅老板国籍的新途径,以及确定移民的收入水平及合法身份。

“作为历史学家,当传统的历史档案内缺乏研究对象的记录,且历史研究机构认为他们的想法和经历无足轻重,这着实令人沮丧。”Heather Lee说。她目前的研究焦点是美国中餐馆的发展历史。“既没有日记,来往信件数量又不充足,这样的情况下要如何了解移民的生活经历呢?我们可以采用数据和数据分析。”

 

Illustrated figures of Chinese laborers look up at and use ladder to ascend menacing wall

2020届学生Sarah Tahir和2019届学生Marina Victoria Pascual 与插画师Trevor Fraley合作创作了一系列动画,描绘中餐馆数据库对中国移民在美国遭遇困难的历史叙述

2020届学生武光宇所在的“美国人口普查”团队将1880年、1910年和1940年的美国人口普查数据与其他历史信息源相关联。他表示,Lee教授提出的用数据揭示百姓故事的想法,启发他的团队将数据应用于新领域。

“历史人口普查收集的数据通常不完整,所以我们尝试利用机器学习,采用职业、年龄等更常见的变量,预测信息缺失的移民的社会经济状态,”武光宇说,“我们希望通过这项研究中,讲述有数据做支撑的普通移民群体的故事,使这些历史叙述更具包容性。”

与武光宇同组的还有2021届世界史(综合人文)专业学生张劭宇。在这位人文专业队友的帮助下,几位数据科学专业的同学利用覆盖面更广的历史背景,确定了能提供最全面数据的人口类别和城市选区。张劭宇和队友最终发现,可以用收入水平计算结果和种族信息构建一个“差异指数”。这些计算结果展现了在20世纪早期,曼哈顿各地区不同社会、不同种族群体之间分隔和融合状态的相对水平。

计算机科学专业学生沈梦婕所在的小组扩大了中餐厅老板和员工的现有数据库,并创建了一个有关中国移民在美合法身份的数据库。研究过程中,她惊讶地发现,仅完成一列数据就需要大量的知识储备。为了确认某个移民的身份,她常常需要花几个小时梳理历年的法律案件记录。

“在计算机科学思维模式下,我通常从一个相对宏观的视角看待事物,关注某个特定数据点,例如从某一地区移民纽约的居民总人数,”沈梦婕说,“但在这个项目中,尤其是在我寻找法律案件记录的过程中,我得从一个更微观的视角看待每个个体的人生轨迹。”

从事该研究的其中一个小组还与上纽大图书馆科研与教学技术服务(RITS)团队的Adrian Hodge和戴赟合作,通过各项技术任务培养了光学字符识别(OCR)等技能,并使用地理信息系统(GIS)对数据进行可视化处理。

 

Graphs show digitized text being twisted into legible form

学生用图表展示,如何用自动平移和角卷积来提高光学字符识别(OCR)的准确性和效率

来自台北的2022届数据科学专业学生林奕忱是“餐厅”研究小组的成员。他们利用应用程序编程接口(API)以及人口普查数据等信息源,查找19世纪晚期收录在纽约企业目录的餐厅老板的国籍。完成后,林奕忱在曼哈顿地图上标出了餐厅和移民社区所在的位置。结果发现族裔餐厅的聚集地并不总是该族裔移民的聚居地,与小组最初的假设不完全吻合。林奕忱及其组员因此想知道这些餐厅的服务对象是谁,以及研究人们对食用非本族裔食品的态度发生了怎样的改变。

“通过暑假参与这个研究项目,我才意识到数据分析的巨大潜力。但我也看到了数据分析的局限性,意识到需要通过扩充背景知识来弥补这一缺陷,”林奕忱说,“我不只是在应用数据科学技能,还要用背景知识来支持我分析的数据,从而真正理解这些数据展现的含义。”

Graph shows geo-referenced restaurant locations plotted against immigrant resident data points

2022届学生林奕忱用地理配准工具绘制出意大利餐馆(红色X)和意大利移民住所(蓝色圆点)的位置,并进行对比。结果发现,其中几家餐馆的主要顾客并不完全是意大利移民(移民住所信息来源:1910年美国人口普查)

计算机科学实践助理教授顾贤斌表示,像这样的收获与心得,对学生未来成为一名有责任感、务实能干的计算机科学家和数据科学家至关重要。

“很高兴能在这些研究项目中,看到许多前沿机器学习技术的创新应用,例如使用几种腐蚀和边界检测算法来辅助处理图像,”顾贤斌教授说,“这些项目展现了数据科学与人文研究携手合作的力量。我相信,这对两门学科都大有裨益。”

2021年春季学期,“人文研究实验室”将继续通过大数据研究观察移民的生活经历。有兴趣的同学可通过Albert报名参加,或直接通过邮件与Lee教授联系。