0
点赞
收藏
分享

微信扫一扫

DrugBank模型数据集比较


​​https://www.pnas.org/doi/full/10.1073/pnas.1803294115​​

论文

node

edges

types

DeepDDI

2159(1710)

192284

86

MUFFIN

2323(1569)

172426

81

Me

1872

362208

MDF-SA-DDI

572/1258

74528/323539

65/100

DDIMDL

572/572

37264/74528 

65

SumGNN

1709

192224

86

DeepDDI:2159个approved,包含smiles,但是我把DeepDDI里面那个192284个边关系的拿出来写代码数一下实际用到只有1710个,可能是本来99种关系,消除到86种的话,去掉了几百种?​​Bitbucket​​

MUFFIN:192284是86种关系每一种都超过了5个实例,MUFFIN种筛选出每一种都超过10个实例的。同样的,统计multi_ddi_sift.txt这个实体个数是1569,但是drugname_smiles.npy是2323个。变成了172426个关系。

Me:我从drugbank上下载了drugbank.xml v5.0.3版本,然后从里面抽出来aproved 且包含smiles的,个数是1872个作为实体集。然后抽取两个实体都在这个实体集中的DDI,结果居然是362208。我不理解

DDIMDL:论文中提到,从DrugBank中收集包含1.substructure,targets, pathway,enzymes的药物,使用KEGG数据库获得pathway,target和enzymes都是从drugbank直接获取,最后获得了57个药物,74528个药物对。但是在代码中是572实体,37264个药物对。。。我不理解。。。

MDF-SA-DDI:文中提到利用DDIMDL中的药物对572/74528个药物对作为小的数据集,第二个数据集是抽取了三个特征,子结构,靶点,酶(少了一个pathways)。


举报

相关推荐

0 条评论