大数据工程中数据质量管控体系的构建与应用
摘要
在大数据工程落地过程中,数据质量直接决定数据分析结果的可靠性与业务决策的有效性。针对当前大数
据工程面临的数据冗余、格式不统一、缺失率高、时效性差等问题,本文从“标准构建-技术落地-流程管控-持
续优化”四个维度,设计全流程数据质量管控体系:通过多维度质量标准明确管控目标,依托分布式数据处理工具
实现自动化管控,结合“事前-事中-事后”流程保障效果,最终通过企业实践验证体系可行性。实践表明,该体
系可将数据完整性提升至98%、准确性提升至99%,显著降低因数据质量问题导致的工程失效风险,为大数据工程的
高质量推进提供技术支撑。
据工程面临的数据冗余、格式不统一、缺失率高、时效性差等问题,本文从“标准构建-技术落地-流程管控-持
续优化”四个维度,设计全流程数据质量管控体系:通过多维度质量标准明确管控目标,依托分布式数据处理工具
实现自动化管控,结合“事前-事中-事后”流程保障效果,最终通过企业实践验证体系可行性。实践表明,该体
系可将数据完整性提升至98%、准确性提升至99%,显著降低因数据质量问题导致的工程失效风险,为大数据工程的
高质量推进提供技术支撑。
关键词
大数据工程;数据质量管控;自动化检测;分布式清洗;质量监控
全文:
PDF参考
[1]中国电子技术标准化研究院.大数据工程技术白
皮书(2023版)[R].北京:中国电子技术标准化研究院,
2023.
[2]Apache Software Foundation. Apache Spark
Documentation: Data Quality Best Practices[EB/OL]. https://
spark.apache.org/docs/, 2023.
[3]王鹏.分布式大数据工程中的数据质量管控技术
研究[J].计算机工程,2022,48(8):98-105.
[4]阿里巴巴集团.大数据质量管控:从理论到实践
[M].北京:机械工业出版社,2021:67-89.
[5]华为云.云原生大数据工程数据质量管控白皮书
[R].深圳:华为技术有限公司,2022:23-38.
Refbacks
- 当前没有refback。
