纽约大学坦登工程学院和上海纽约大学的研究人员,近期发布了关于Facebook政治广告的第一份深度分析报告,这也是该研究团队正在进行的网络安全研究项目的一部分。
纽约大学坦登工程学院计算机科学与工程助理教授Damon McCoy,提出“在线政治广告透明度项目”的想法。该项目开发出易于使用的工具,用于收集、存档、分析政治广告数据。研究团队成员包括纽约大学坦登工程学院博士生Laura Edelson,以及上海纽约大学2019届学生Shikhar Sakhuja。他们计划在11月中期选举期间,每周公布一份政治广告报告,希望通过这个方式提高Facebook存档的透明度。研究团队还计划使用复杂的数据抓取方法,提供关于Twitter平台的类似信息。
今年5月,Facebook成为首个开放可搜索政治广告存档数据的主要社交媒体公司,提供有关Facebook和Instagram平台的相关信息。但McCoy教授发现,这些存档数据很难使用,需要花费大量时间手动检索。因此,他决定引入一种数据抓取技术,而此前这种技术被他用于打击推广、使用比特币的人口贩子等犯罪分子。
不过,McCoy教授和他的研究团队也对Facebook表示赞赏,认为其在透明度与问责制方面采取了开创性举措,包括建立公共存档以及计划推出可支持大规模分析的API(应用程序编程接口)。但Facebook尚未公布将于2018年发布API的具体时间。“我们希望尽快为选民提供易用的工具,让他们了解是谁在做广告,广告内容为何,为了影响选票所花费的资金,以及广告的受众等等,”McCoy教授说。
他的研究团队重点分析了2018年5月至7月期间的26.7万多条政治广告,主要结果如下:
- Facebook和Instagram用户的政治广告浏览次数为至少14亿次,广告曝光次数约近39亿次(Facebook仅提供范围数据)。纽约大学坦登工程学院的研究团队迅速调整了网络爬虫技术,加入了视频和图片信息。
政治广告花费至少为1390万美元,但也可能是这一数字的5倍。由于原始数据只提供大致范围,预估结果较为粗略。
此类广告的主要投放受众为年龄在25岁至34岁之间的男性。
广告投放人均数量最多的是华盛顿特区,紧接着是内华达州、科罗拉多州和缅因州。最少的分别为特拉华州、内布拉斯加州和新罕布什尔州。
Facebook存档数据中的一些错误识别,是进行有意义的自动化分析的障碍之一。例如,它会将某个政治活动委员会错认为个人,或将一个政治主题服装店当成政治机构。
这张热力图显示了Facebook政治广告在美国各州之间的差异。
排名前5位的政治广告主及其广告曝光量与支出如下:
- “特朗普让美国重新伟大委员会”:4127条广告,2640万次曝光量,190400美元支出;
- 美国计划生育联合会:3389条广告,2450万次曝光量,188800美元支出;
- AAF Nation,LLC(政治主题服装厂商):862条广告,1840万次曝光量,78900美元支出;
- 美国全国步枪协会:213条广告,1830万次曝光量,58000美元支出;
- Beto for Texas(竞选国会参议员的民主党人Beto O'Rourke):377条广告,1300万次曝光量,194400美元支出。
数据还显示,参与美国国会和各州选举的候选人在网上投放了大量广告。
其中,很大一部分广告(43573条)因没有遵守Facebook的最新要求,即政治广告应当标明赞助者而被下线。研究团队的每日存档记录了这些“赞助者不明”的广告,并注意到,一些广告是因为Facebook突然调整政策出现了违规。此外,研究团队还发现,尽管Facebook下架违规广告的平均时间由26.4天缩短至5.6天,但其处理下架的时间,还是会比广告通常的投放时间更长。
点击链接了解该项目:https://online-pol-ads.github.io;或下载数据:https://github.com/online-pol-ads/FBPoliticalAds/tree/master/RawContentFiles
对话Shikhar
《上海纽约大学汇报》与研究团队中的上海纽约大学2019届学生Shikhar Sakhuja对话,他分享了参与该项目的初衷以及从中的收获。
你在这个研究团队中工作了多久?主要职责是什么?
我从2018年6月开始加入了这个团队。我和另一名研究员共同承担研究与工程方面的工作。我为从Facebook的数据挖掘打下基础,并最终进行了梳理、分析工作。
加入该项目的主要原因是什么?
Damon McCoy教授带领的研究团队以及该项目的目的,是为了解决具有社会影响力的问题,他们的研究范畴,也比传统的计算机科学领域更为宽广。
从这段经历中你得到了哪些收获?
因为参与这个项目,我对社交网络分析产生了浓厚兴趣。我们生活在社交网络驱动一切的时代,连美国大选也是如此,我想继续从事该领域的研究。这个项目让我有机会锻炼在数据挖掘、机器学习、数据库设计与管理,以及软件工程方面的各种技能。