EHR数据质量的评估方法和维度:实现临床数据重复利用

时间:2017-07-19 11:43:00来源:OMAHA编译

理想的大数据即是指表现现实世界真实数据分布的数据。简言之,如果大量数据表观现实世界为真,我们归纳出的结论和数据模型将具有可操作性,就可以用来预测未来和指导实践。反之,如果数据本身有问题,无论量有多大,得到的结论和模型都会很局限,甚至不能推广运用。

推及医疗领域,数据质量尤为关键。无论人工智能、医疗大数据有多火爆,我们都应该冷静下来,仔细审视手中的“数据”,毕竟这将是生命的维系。

作者通过对230多篇有关医疗数据的文章梳理,筛选出95篇文献进行分析,这是迄今为止有关医疗数据质量评估方法和维度最为详实、最全面的总结。阅读时间8min。

医疗数据质量首先要确定的是评估的维度。作者经过全面、系统性的综述总结出五个维度:

完整性:EHR中患者的表现是否真实?

准确性:EHR中存在的数据是否为真?

一致性:EHR内或者EHR和其他数据源之间是否有数据元协议?

合理性:EHR中的数据是否与衡量相关数据元的知识相符合?

时效性:EHR中的数据是否能代表在给定时间点的患者状态?

不同文献中对于评估维度的描述用语不尽相同,大家可以看下图汇总表:

完整性

完整性是数据质量最常见的评估维度,是61篇(64%)文章中的重点领域。一般而言,完整性涉及有关患者的真实情况是否存在于EHR中。大多数文章使用术语完整性来描述此维度,有些则会考虑到数据可用性或缺少数据。在其他方面,完整性被纳入更一般的概念,如准确性或质量。许多文章通过使用其他数据源作为黄金标准来评估EHR数据的完整性。

准确性

数据质量第二大评估维度是准确性,其中57篇(60%)的文章谈及此问题。当所包含的信息为真时,EHR数据被认为是准确的。常用于描述此维度的其他术语包括准确性,错误和质量。有时,准确性包括完整性,因为一些研究人员认为丢失的数据是错误的(即遗漏的错误)。Hogan和Wagner 建议的准确性定义为:数据准确性是存在的正确数据元素的比例,这相当于阳性预测值。

EHR数据与黄金标准的比较是迄今为止最常用的评估准确性的方法。这些黄金标准包括:纸质记录; 患者访谈提供的信息,调查问卷,数据综述,或直接输入的数据,临床信息,标准化病人提供的信息,自动记录数据;与治疗医师沟通;以及能与EHR数据元匹配的其他替代数据来源。

评估准确的第二个最常见的方法是查看EHR内的数据元之间的一致性。通常这涉及通过查看相关程序,药物或实验室价值来验证诊断。同样,一些文章报告了有关要素之间的一致性以及通过检查使用“复制”和“粘贴”所带来的错误来确保一致性的做法。其他研究人员特别关注了EHRs中结构化数据与非结构化数据之间的一致性。

一致性

有16篇(17%)评估了一致性。当数据元达成协议或兼容性时,数据被认为是一致的。这意味着为单个患者记录相同信息的两个数据元具有相同的值,或者记录不同信息的数据元在一起考虑时更有意义。(例如,生物性别被记录为女性,并且程序被记录为妇科检查)。一致性的测量通常基于EHR中包含的数据,但一些研究人员也会考虑来自其他数据源的信息。用于描述数据一致性的常用术语包括协议和一致性。

在评估的一致性最常见的方法是看EHR 数据元间的协议,尤其是诊断和涉及药物治疗或程序相关的信息。第二常用方法是查看EHR数据与其他来源的数据的一致性。这些其他来源包括记帐信息,纸张记录,患者报告的数据,和医生报告的数据等。

合理性

有7(7%)篇文章评估了EHR数据的合理性。如果他们与一般医学知识或信息一致,那么数据是合理的,因而是可行的。换句话说,对合理性的评估旨在确定数据是否可信赖,或者是否具有可疑。用于讨论和描述EHR数据可信度的其他术语包括数据有效性和完整性。

评估EHR数据合理性的最常见方法是执行某种有效性检查,以确定EHR中的特定元素是否是真实的。这包括寻找具有生物似然范围之外的数据元的值,或随着时间的推移而变得不合逻辑的数据元以及无用的数据元。

时效性

在95篇文章中,四篇(4%)评估了EHR数据的时效性。时效性通常在文献中被称为及时性。如果数据在测量后合理的时间内记录在EHR中,或者如果它们在所认为合理的时间段内能代表患者状态,则被认为是最新数据。在所有四篇文章中,通过审查数据输入日志来评估时效性。

虽然将数据质量的五个维度视为相互排斥的,但在作者看来,只有三个可以被认为是根本的:正确性,完整性和时效性。因为这些维度是不可还原,并且描述了与EHR数据重复利用相关的数据质量的核心概念。另一方面,一致和合理性虽然作为数据质量的独立特征而被讨论,但是在不可能直接评估的情况下,可以作为基本维度的代表。

七大评估方法

在本文中,作者也提供了评估数据质量的七大方法:

黄金标准:来自其他来源或多个来源的数据集,不管是否包含来自HER系统的信息,都被用作黄金标准。

数据元协议:比较EHR内的两个或多个元素,以查看它们是否报告相同或兼容的信息。

元素元:确定是否存在期望出现的数据元。

数据源协议:将来自EHR的数据与来自其他来源的数据进行比较,以确定它们是否一致。

分布比较:将来自EHR的聚合数据进行分析,与所关注的临床概念的预期分布进行比较。

有效性检查:使用各种技术来评估EHR中的数据,以确定值是否有意义。

日志审查:检查实际输入数据的信息(如日期,时间段,编辑情况等)。

EHR数据的重复利用是一个有希望的研究领域。然而,EHR数据质量的问题需要使用质量评估方法来确定这些数据对于给定研究任务的适用性。作者也指出,数据质量不是一个简单的问题,如果EHR数据的复用成为领域内的公认方式,那还需要开发有效的,系统性的EHR数据质量评估方法。作者鼓励研究人员在讨论数据质量的维度方面保持一致,采取系统性的数据质量衡量方法。在临床数据复用的背景下,开发和分享评估EHR数据质量的最佳实践。

原文题为:《Methods and dimensions of electronic health record dataquality assessment: enabling reuse for clinical research》

作者:Nicole Gray Weiskopf, Chunhua Weng

© 版权声明
相关推荐