数据科学如何助力抗疫？这4点很重要

12月

582 0 0

互联网为抗击新冠肺炎疫情提供了工具和基础设施，但疫情也给互联网带来了前所未有的挑战。我们尚未充分利用互联网和数据分析来快速应对疫情，做出公共健康决策。政府、研究机构、技术社群、企业等主体应当采取措施，积极发挥数据科学在后疫情时期的作用。1
运用深度分析，建立数据模型。
在新冠肺炎患者治疗过程中，基因型和表现型的关系十分复杂。患者的愈后诊断取决于患病倾向、身体素质、环境效果等多种因素，疾病的表现方式也各有不同。
目前，我们仍缺乏因果数据模型，帮助我们厘清复杂的关系网络。因此，必须运用机器学习等基于计算的统计方法来处理各种数据，识别疾病的关键特征和关系。系统工程师需要在更广泛范围内分享流行病的潜在模型，关注多种角度，提升应用模型的针对性，包括针对病毒本身、基因型/表现型特征之间的因果关系、对人群的效果等，以建立适用性更强的模型系统。
2
制定分享标准，汇聚全球资源。
当前，疫情数据散见于几千个数据控制中枢，位于全世界的医院、实验室、区域数据中心、国家资源库等，每个控制中枢必须平衡好数据分享与个人隐私保护之间的关系。
数据分析与共享是一个全球性议题，能通过计算对复杂疾病进行深度分析的科学家，不一定就住在掌握相关数据的国家。因此，为了提升应对疾病的能力，需要建立基于双方或多方认可的协议和标准，以可控制、可审查、符合道德规范的方式在全球范围内共享数据资源。4月26日，在第四届数字中国建设成果展上，观众体验红外智能测温系统。传播君潘树琼/摄
3
验证计算模型，指导后续行动。
验证计算模型的可行性和效果是全球性议题。我们使用模型时，希望从某国的早期经验中获得信息，指导后期受影响的国家采取行动，还希望针对当时的相关证据，对不同国家所采取的策略进行实时比较。
疫情背景下，需要将本次疫情的防控经验转化为未来规划和决策的模板，从而在类似事件发生时可以迅速响应。同时，在未来数据共享标准建立后，计算模型能以更加迅速、更具结构化的方式共享国家数据和全球信息。
4
分享可信知识，构建良性循环。
在收集数据时，只有相当小的一部分流行病模拟或疾病描述的证据可被视为“真实的”。在多数医疗体系中，数据编码仍有一周或数月延迟。即使有了编码，仍会存在人为错误、系统差异和个体偏差。全自动数据采集设施有助于提升可靠性和标准化程度，但也存在大规模突发事件背景下数据质量难以评估、不易控制等问题。因此，我们需要在数据分享系统中加强供应能力，通过可信的数据输入以及可溯源的数据输出，形成良性循环。
目前，对于全球数据分享系统的发展前景呈现出不同声音。
悲观者认为，政府批准信息共享的意愿不强，上述设想难以实现，即使政府同意，建立可靠的国家数据分享和分析基础设施所需的人力与财力也非常大；
乐观者则认为，至少一些国家已经开始投入建设此类基础设施，在后疫情时期，此类基础设施还有可能得到强化。高效的基础设施可以迅速用于其他领域，给各国政府更多信心，促使各国制定数据信息共享协议。
目前，政府、国际组织、跨国企业乃至个人已经将注意力转向这个挑战：许多国家政府正在打造国家级数据基础设施；国际组织提倡跨国数据共享和经验分享；跨国企业同意接受约束，在保护个人和国家利益的同时，从基因型和表现型数据中提取价值；个体也开始从个人利益和共同利益方面认识到个人数据的价值。
尽管涉及技术、政治、社会、伦理等多方面复杂因素，但通过促进全球医疗知识共享来保护各国居民已成为全球共识，各国需要树立共同目标，携手逾越障碍、破解难题。✿本文来自《网络传播》杂志5月刊，原标题为《积极发挥数据科学在后疫情时期的作用》，作者戴维·罗伯森（David Robertson）系英国爱丁堡大学副校长，编译：中国网络空间研究院国际治理所沈瑜。
✿投稿 wangluocb@vip.sina.com