FAO's Data Lab

数据实验室通过解决与及时性、颗粒度、数据缺口和自动化分析相关的具体挑战,为粮农组织统计系统提供支持。

 


数据是一种极其重要的无形产品,但并不总是具备官方数据。而且,统计能力低下、数据和统计工作资金不足、数据传播和使用文化薄弱以及市场上出现新竞争者等挑战也造成数据空白。紧急情况时,这种空白会扩大,而这时候获得及时信息非常重要。

为解决传统数据收集系统的危机,国家和国际行为者需要利用新的数据来源和方法,并找到创新解决方案来生成与粮食安全、营养和粮食体系转型相关的信息。

有鉴于此,粮农组织在2019年创建“统计创新数据实验室”,通过提高数据收集的及时性和颗粒度,增加使用从非结构化来源提取数据的方法和技术,以建立更及时的信息来支持决策过程,从而填补这一空白。

网页抓取

互联网提供广泛事实和数据来源,其中包括大量不同的散乱数据。网页抓取包括从网页中获取和提取这些数据,并形成有条理的信息。数据实验室开发了不同的程序,从包含统计数据的网页或社交媒体(推特) /媒体聚合器(谷歌新闻)收集结构化信息。

文本分析

文本分析(或文本挖掘)是指从不同的书面资源中自动提取信息的过程。它涉及词汇分析,以研究词频分布、模式识别、标签/注释、情感分析、信息提取、数据挖掘技术(包括链接和关联分析)、可视化和预测分析,旨在通过应用自然语言处理将文本转化为数据进行分析。通过适当工具(所有这些都是免费和开源的),数据实验室根据所使用的资源或分析的特定目标来实施不同的自然语言处理步骤。

数据验证

数据验证即核实所抓取数据质量的过程。这意味着实施一种策略,通过参考其他来源来验证结果信息的正确性和意义。数据实验室可以进入粮农组织所有数据系统,对照最新“官方来源”检查得出的数值。

统计建模

用数学方法将一种现象形式化,用于确定不同组成部分在决定其数值时如何发生作用。这可用于在没有可用观测值时获得现象值。数据实验室开发模型,从抓取的数据开始,并考虑其他来源,产生有助于支持实现粮农组织主要目标的描述性统计数据和适当指标。