- 提高阳性率之——临床特征采集和标准化录入
临床特征标准化是临床和科研分析的关键
在临床诊断应用中,临床特征标准化是NGS检测分析前的临床特征收集工作最关键的“临门一脚”。否则病历信息收集得再全面也体现不出效果,因为病历描述很可能计算机不识别。
在科研分析中,要对大量样本形成的大数据进行挖掘,如果临床表型的标准化做的不好,就很难准确挖掘其大数据中的科研价值。比如我们要分析合并“癫痫”与“贫血”两种表型的患者,共同在哪个或哪些基因上产生变异,从而发现新的致病基因,就需要这些数据都有很好的临床特征的标准化管理。否则如果最初开单录病历表型词的时候就不规范,后面再做科研时,基础数据不完善导致难以挖掘大数据价值,就可能悔之晚矣。
如何准确详实地收集患者临床特征
越详尽越好
包括症状、体征、实验室检查、辅助检查、既往病史、家族病史等;
出现多系统特征的,不要漏掉某些系统异常,而误以为是单系统疾病;
能细致就不要粗劣,比如多指畸形,就不要说成笼统的手足畸形;
有家族史的,其家系成员有不典型或轻微表型就不要当做正常无表型。
容易被忽视的
外貌特征(外貌特征及形体特征可向上概括为查体异常):
头面部:头围,注意小头畸形,发际,额部异常,眉毛稀密及眉弓,耳的大小,耳位高低,眼距,眼裂,睫毛,鼻翼发育,鼻根,人中,有无唇裂、腭裂和高腭弓,口腔内注意舌体及牙齿情况,小下颌畸形,毛发稀疏和毛发颜色。
形体特征:
注意上身长与下身长的比例、指距、手指长度、多指(趾)并指(趾)、皮肤和毛发色素、手纹、外生殖器等。注意黄疸、肝脾大和神经系统症状、一些不正常的汗味或尿味等。
实验室及辅助检查:
血、尿、便三大常规,血生化、免疫学、凝血功能、自身抗体、病原学等。代谢病需要提供血串联质谱分析结果及尿气象色谱分析结果。针对具体案例,需要提供具有重大诊断价值的相关检查结果。
不同科室或不同系统的遗传病侧重关注检查方向有所不同,应搜集该专科的专科查体及专科检查资料。例如眼科(视力、眼底、视网膜电图);肾内及泌尿(尿常规、电解质、酸碱平衡、超声等影像学等);血液科(血常规、涂片、骨穿等);神经系统癫痫(临床发作特点、脑电图、MRI等)、神经肌肉病(肌力、肌张力、肌电图、肌肉活检)。
阴性特征
阳性(异常)特征固然重要,但阴性特征也很重要,可以用来排除某些疾病。
祖孙三代家族病史,家系成员的轻微表型
这个容易被忽视,也是特别重要的信息。如果家系成员的表型信息缺失,或者存在错误,遗传学共分离分析就无法完成,或者完成的也是错误的。问询家族病史的时候,涉及的代际和成员越多越好。另外特别注意家系成员的与先证者疾病类似的轻微表型,因为这代表着该家系成员是携带者,对于AD遗传病,则是不完全外显的患者,对于AR遗传病则是杂合携带者。
比如有位协和的遗传学老教授介绍过的一个病例,患儿罹患视网膜母细胞瘤,检测到患儿携带杂合的疑似致病突变,患儿母亲也携带但不发病。医生觉得奇怪,便叫来患儿母亲仔细观察其眼部,发现其眼底有白斑。这就是一个典型的不完全外显的例子,患儿母亲的确没有发病,但是有轻微表型。如果不是医生的较真,认为母亲是无表型,按遗传学共分离分析,就有可能把这个突变当做不致病变异给过滤掉了。
如何做好临床特征标准化录入?
用标准化医学术语,统一临床特征的描述
如果要实现让计算机自动匹配患者疾病与七千种遗传病的特征的相似性,就需要让病历信息成为计算机可识别的元素,这就需要让临床特征的描述标准化,也就是运用标准化医学术语,统一临床特征的描述。
HPO(Human Phenotype Ontology,人类表型本体论),是迄今为止关于疾病(尤其是单基因遗传病)特征的结构化管理的数据库。它把七千多种遗传病的海量表型特征,进行结构化处理,去掉重复后得到一万多种表型词。这些表型词之间有层级逻辑关联。
利用全谱云平台进行临床特征标准化
国内最早完成了HPO的汉化的机构是智因东方(原德易东方)——早在2015年初就联合各临床学科的专家团队率先完成,并把汉化版HPO嵌入全谱精准诊断云平台系统中。
比如癫痫发作这样一个特征,相同或相似的意思,可以有很多种叫法,如癫痫发作、抽羊角风等等,在HPO数据库中则统一为“痫性发作”这样一个标准称谓。
另一方面,在HPO收录的七千多种遗传病的临床特征描述,其实都是HPO中的表型词的组合,当医生在录入患者表型词时,如果选择标准词“痫性发作”,就可以与涉及“痫性发作”几百种疾病的表型相匹配。
如果涉及到关于“痫性发作”更细节的描述,则可在子特征(如癫痫持续状态、全身性发作、高热惊厥、局灶性痫性发作、癫痫性痉挛、症状性发作、意识障碍发作等)以及更下一级特征中去选择。
模糊检索
可以输入简单的关键词,在HPO标准词库中查找与患者某特征最贴近的表型词。对于经过专业训练的医生,一分钟内完成一个患者的表型的标准化录入是完全有可能的。
单选最准确的层级
在模糊查询的众多表型词中,单选最相近的表型词,不要把像与不像的都一股脑选上,否则会造成匹配评分的偏差。