一、智因推出“自主问答式”基因数据科研聚类分析平台
如何挖掘基因大数据的科研价值?如何发现新的致病基因?科研之路困难重重,非生物信息专业的医生或者研究者聊到这个话题都会感到扎心。他们一般是委托第三方公司进行基因测序,公司提交测序分析结果和一堆原始数据,但结果往往并不令人满意,问题在于:
大多数基因测序公司只是擅长做基础测序和基本的分子生物学注释,对疾病、遗传机制领域并不在行,他们的分析未必满足需求,结果未必靠谱;医生或研究者可以同这类公司沟通分析需求,但多有“鸡同鸭讲”的感觉,不在一个频道上。好不容易说定一个分析思路去分析,但拿到的结果未必称心,而且科研本来就不可能是一个思路下去就能见成效的,往往需要不断变换思路去尝试。但如果医生或研究者改变分析思路要求公司重新分析,公司大多会提出新的费用要求(毕竟人工费用产生了嘛)。假如每一次定制分析都增加费用,这钱实在烧不起!
有人会说,原始数据不是在医生或者研究者手里吗,自己不能分析吗?还真不能!隔行如隔山,对于非生信专业的人而言,原始测序数据几乎毫无实际意义。
于是,就让小智替广大医生和研究者们表达这样一个共同梦想吧,那就是,科研分析,为啥就不能像敲计算器一样,用户自己把算式敲进去,一键就得到结果呢?
说得更清楚点就是,能不能有这样一个“自主问答式”的数据分析平台,这个平台已经嵌入了常用科研思路所涉及的各种分析算法,用户只需要选择设定数据分析的思路,电脑系统平台就会在后台自动运算并给出分析运行结果。一旦用户要换个思路分析,只需要重新设定新思路,让系统再次运算即可。让用户自由把握分析思路,让系统直接回答用户,让用户再不用遭这个“鸡同鸭讲”的罪!
那么这个梦想已经不再仅仅是梦想了,终于一不小心成真了。近日,智因东方发布业内自主问答式基因大数据聚类平台。对于客户交付给智因平台的数据,或者是交付给智因做基因测序而产生的数据,客户就可以在平台上,像敲计算器一样,设定需要聚类分析的条件,平台即可在0~n分钟内运算生成聚类分析的表格化结果。客户可下载结果的表格,进一步线下分析。
这个自主问答式基因大数据聚类平台目前已开放了遗传病研究模块,可以设定的条件指标有:样本范围、数据质量、变异的生物学危害性级别、遗传方式、家系携带方式、基因群、基因表达组织等。
智因东方基因大数据聚类分析平台将有助于科研用户实现以下功能:
- 统计某种疾病的致病基因相关性;
- 发现新的致病变异、致病基因;
- 发现疾病相关性变异、统计热点致病突变;
- 通过多样本大数据解读变异的致病性。
比如用户希望在智障表型的患者中(通过表型筛选样本),挑选LOF变异(选择生物学危害性级别为一级),且是支持AD遗传模式的denovo变异(选择遗传方式和家系携带方式),且变异的reads数大于10(数据质量设定),且产生变异的基因是在脑部表达的(选择表达组织),根据这些条件来看看在这些样本数据中是否有发现新致病基因的可能。那么就按括号中所述进行操作,一键运行,分分钟就会有表格化结果生成,显示符合条件的变异是在哪些样本中产生,及相关的诸多重要注释信息。
这个平台实质上是把从科研思路到需求整理,从需求整理到生信分析,再从生信分析到结果提交这一过程的所有中间环节悉数越过,实现了从科研思路到分析结果的直达,从而大大提升了科研分析的效率。有了这个利器,研究者发现新的致病基因会更加便捷。小智欢迎广大用户提出更多的需求,并将根据需求改进系统,让用户使用更贴心更方便。
说到这差点忘了个重要的事,最重要的是,这个平台目前对智因东方的合作者是免费开放的哦。
二、发现新致病基因,不再遥不可及
- 遗传病的地理大发现——正当其时
人类目前已鉴定出有功能的基因总共有约2万个,而其中只有不到4千个(约20%)与已知的疾病相关。
人类目前已发现的疾病有1万多种,而其中只有4千多种(不到30%)找到了致病基因。
这就意味着:
绝大部分基因尚未找到对应的疾病;
绝大部分疾病尚未找到致病基因。
15世纪,欧洲人开启了大航海,向传说中的印度、中国出发去寻宝,意外地发现了地球是圆的,发现了美洲新大陆,进而通过殖民所获得的财富甚至远远超过本土的财富,成就了近代的西方殖民列强。这一重要时期被称为“地理大发现”。
如今,寻找疾病的致病基因,甚至定位新的疾病,就犹如15世纪的地理大发现。未知的领域比已知的领域要广阔得多。发现新疾病、新致病基因的研究大有可为!
- 发现新致病基因的那点事——多样本全外显子聚类分析
那么该如何做,才能发现新的致病基因呢?
其实方法并没有那么玄乎,无非就是干这三件事:
第一件事,想明白要做哪种疾病的研究;
第二件事,收集这种疾病的患者样本;
最好是家系样本,包含患者父母,如果能再多点其他家系成员的患者和本家系正常人(对照样本)就更好。总之是家系越多越好,一个家系里面的样本越多越好。
第三件事,把样本送到智因东方(原德易东方)进行检测分析;
测序好说,买台机器谁都能测,关键是测序之后的数据分析。利用智因东方(原德易东方)的临床级基因数据分析平台,和聚类分析平台,可以对患者的数据进行大海捞针般的聚类分析,轻松找到基因和疾病之间的关联,说白了就是发现潜在的致病基因。
做完这三件事,万里长征已经走完大部分了,也就是找到了只有患者才有的突变基因。如果想发更高分的文章,可以进一步做基因功能确证性的研究,包括体外细胞实验、动物模型等等。总之,大致的过程可以理解为两步,第一步通过
- 为什么选择全外显子聚类分析?而不是全基因组或Panel策略?
Panel策略不能优先考虑,这个道理很简单,因为它只能检测有限的基因,往往是前人已经研究过的基因,这种策略不适用于科研新发现。
那为什么不是全基因组测序策略呢?全基因组测序的测序成本已经降到1千美元,已经相对便宜了呀?原因有三:
- 1千美元的全基因组测序,那只是测序成本,没包含数据分析成本。全基因组数据量近百G,而全外显子组不到10G,仅从数据量来看,数据分析成本要远高于全外显子组。
- 全基因组的测序范围远远超过全外显子组,但干货没有实际增加多少。全外显子组所测的是致病概率较高的区域——外显子区域,外显子是编码mRNA,最终构成蛋白氨基酸结构的区域。全基因组比全外显子组多测的范围是非编码区,主要是内含子等,总长度是外显子区域的近百倍,这些区域的变异绝大部分是不导致疾病的,即便导致疾病,在数据分析上也很难鉴别,大多数情况下是根本无从鉴别,说简单点就是测了也几乎是白测,得不到有意义的分析结果。
- 如果我们只关注在致病突变富集的外显子区域,全基因组策略的数据质量还不如全外显子组!最新的国外文献的研究结论表明,1千美元的全基因组测序,得到近百G的数据,也就对应30X的测序深度,而全外显子组测序可以得到100X的测序深度(智因东方(原德易东方)就可以做到),在外显子区域,无论是测序深度、覆盖度和检出率,全外显子组都优于全基因组。
- 大样本量从哪儿来
看下近年来通过NGS进行疾病研究发表的文章。只有极少数文章用到了很大的样本量,大部分文章只用了几十例样本。对于咱中国医生来说,大样本优势是现成的,如果再结合上智因东方(原德易东方)的不会输给国外的检测分析平台,发现新致病基因也就没有看上去那么遥不可及了,而是变得“触手可及”啦!
- 科研经费从哪儿来
一般大样本量的全外显子组测序分析,都会需要不菲的科研经费投入。智因东方(原德易东方)的遗传病全外显子组测序分析科研服务,拥有行业内较高的性价比。
但对于临床医生,还存在一种低投入的科研模式,那就是在临床诊断时运用全外显子组检测分析,在阴性结果的数据中挖掘科研价值。
如果临床检测只检测中包(人类已知四千种病Panel)、小型Panel,阳性率一般只有20%左右,阴性结果中有相当一部分可能就存在于未知基因突变的情况。如果选择智因东方(原德易东方)的大包检测,不仅临床分析的阳性率可以提高至50~70%(加入了CNV分析),而且还能对阴性数据进行定期聚类分析,从而发现新的致病基因。智因东方(原德易东方)对临床检测的阴性数据免费提供聚类分析科研服务或工具。
- 医生的福利——无心插柳的科研和一鱼多吃的成果
医生在应用智因东方(原德易东方)全外显子测序分析(大包)项目辅助临床诊断时,同时符合生物学、遗传学和临床特征阳性意义的突变,将会作为临床诊断的阳性参考,而阴性结果的数据会产生衍生的科研价值。根据突变的不同属性,有可能导致发现新疾病、发现已知疾病的新致病基因、新的遗传方式,或已知基因的新的致病突变,等等,不同的科研发现。
上述这些科研发现,完全可以通过对临床数据的积累得到,这也完全是一个无心插柳的过程。
智因东方(原德易东方)将携手医生、科室、医院建立遗传病基因数据库,一组数据,可以得到多种科研成果,可谓“一鱼多吃”。