大数据工程中数据质量管控体系的构建与应用

唐 娜
深圳市证券业协会

摘要


在大数据工程落地过程中,数据质量直接决定数据分析结果的可靠性与业务决策的有效性。针对当前大数
据工程面临的数据冗余、格式不统一、缺失率高、时效性差等问题,本文从“标准构建-技术落地-流程管控-持
续优化”四个维度,设计全流程数据质量管控体系:通过多维度质量标准明确管控目标,依托分布式数据处理工具
实现自动化管控,结合“事前-事中-事后”流程保障效果,最终通过企业实践验证体系可行性。实践表明,该体
系可将数据完整性提升至98%、准确性提升至99%,显著降低因数据质量问题导致的工程失效风险,为大数据工程的
高质量推进提供技术支撑。

关键词


大数据工程;数据质量管控;自动化检测;分布式清洗;质量监控

全文:

PDF


参考


[1]中国电子技术标准化研究院.大数据工程技术白

皮书(2023版)[R].北京:中国电子技术标准化研究院,

2023.

[2]Apache Software Foundation. Apache Spark

Documentation: Data Quality Best Practices[EB/OL]. https://

spark.apache.org/docs/, 2023.

[3]王鹏.分布式大数据工程中的数据质量管控技术

研究[J].计算机工程,2022,48(8):98-105.

[4]阿里巴巴集团.大数据质量管控:从理论到实践

[M].北京:机械工业出版社,2021:67-89.

[5]华为云.云原生大数据工程数据质量管控白皮书

[R].深圳:华为技术有限公司,2022:23-38.


Refbacks

  • 当前没有refback。