不良数据会造成更严重后果的几个原由

发布时间：2022-06-25 12:52 所属栏目：125 来源：互联网

导读：现在回想起来，这是有道理的。当时不仅存在基础设施方面的挑战，而且使用网络的人并不多，网站也没有那么有价值。随着云计算、电子商务和SaaS的兴起，这种情况发生了变化，确保可靠性成为企业的关键任务，站点可靠性工程(SRE)应运而生。数据如今处于相似的

　　现在回想起来，这是有道理的。当时不仅存在基础设施方面的挑战，而且使用网络的人并不多，网站也没有那么有价值。随着云计算、电子商务和SaaS的兴起，这种情况发生了变化，确保可靠性成为企业的关键任务，站点可靠性工程(SRE)应运而生。

　　数据如今处于相似的时刻。技术在进步，企业的业务正在向云迁移，数据变得比以往任何时候都更加广泛和更具价值。

　　由此得出的结论是，随着数据变得更有价值，数据质量差的后果变得更加严重。在一两年前还适用的最佳实践、技术和投资现在可能影响企业的竞争能力。

　　根据调研机构Gartner公司的预计，到2025年，80%寻求扩展数字业务的企业将会失败，因为他们没有采用现代方法进行数据和分析治理。

　　1.数据正在向下游移动
　　不良数据的成本取决于谁发现了问题。如果数据工程师发现了错误的数据，他们就会得到奖励。如果公众发现不良数据，那么可能会根据情况产生声誉或法律影响。

　　每个阶段还充当过滤器，防止不良数据向下游移动。目前的挑战在于，目前数据存在多种趋势，这些趋势正在加快数据从数据民主化、数据产品、反向ETL等向下游移动的步伐。

　　2.数据堆栈变得越来越复杂
　　不良数据越往下游传播，修复成本就越高。让数据工程师对ETL管道进行故障排除，这比让数据科学家重新训练已输入错误数据的机器学习模型要容易和快捷得多。

　　数据的修复成本高昂。随着企业越来越依赖复杂的数据资产来帮助执行业务决策，不良数据的机会成本也随之上升。

　　例如，一家拥有机器学习模型的投资公司就遇到这样的情况，该模型可以在债券符合特定标准时自动购买债券。模式错误会使模型离线数天或数周，其结果导致这部分业务陷入停顿。

　　随着数据堆栈变得越来越复杂，也有更多的数据“交接”，从而为更多问题带来了机会。例如，一家游戏开发商就注意到他们的新用户在获取数据时出现了偏差。

　　他们投放广告的社交媒体平台改变了数据时间表，因此他们每12小时而不是24小时发送一次数据。该公司的ETL设置为每天只提取一次数据，因此这意味着在突然之间，发送给他们的一半活动数据没有得到处理或传递到下游。

　　3. 数据质量责任正在变得分散
　　数据网格或分散的团队模型分配数据质量责任。目前数据中最热门的概念之一是数据网格，它将数据所有权在域数据所有者之间联合起来，这些所有者负责将数据作为产品提供，同时促进不同位置的分布式数据之间的通信。

　　这样做的好处是让数据团队更接近业务，并了解所有相关数据操作的目的。然而，就其性质而言，也分散了责任。

　　分散的设置给清晰的沟通和清晰的流程带来了更大的负担。如果没有强大的流程，责任分散可能会延长解决不良数据所需的时间或这些问题跨域时的数据宕机时间。

（编辑：ASP站长网）