DrugBank模型数据集比较-CFANZ编程社区

DrugBank模型数据集比较

https://www.pnas.org/doi/full/10.1073/pnas.1803294115

论文	node	edges	types
DeepDDI	2159(1710)	192284	86
MUFFIN	2323(1569)	172426	81
Me	1872	362208
MDF-SA-DDI	572/1258	74528/323539	65/100
DDIMDL	572/572	37264/74528	65
SumGNN	1709	192224	86

DeepDDI:2159个approved，包含smiles，但是我把DeepDDI里面那个192284个边关系的拿出来写代码数一下实际用到只有1710个，可能是本来99种关系，消除到86种的话，去掉了几百种？Bitbucket

MUFFIN：192284是86种关系每一种都超过了5个实例，MUFFIN种筛选出每一种都超过10个实例的。同样的，统计multi_ddi_sift.txt这个实体个数是1569，但是drugname_smiles.npy是2323个。变成了172426个关系。

Me:我从drugbank上下载了drugbank.xml v5.0.3版本，然后从里面抽出来aproved 且包含smiles的，个数是1872个作为实体集。然后抽取两个实体都在这个实体集中的DDI，结果居然是362208。我不理解

DDIMDL:论文中提到，从DrugBank中收集包含1.substructure,targets, pathway,enzymes的药物，使用KEGG数据库获得pathway，target和enzymes都是从drugbank直接获取，最后获得了57个药物，74528个药物对。但是在代码中是572实体，37264个药物对。。。我不理解。。。

MDF-SA-DDI:文中提到利用DDIMDL中的药物对572/74528个药物对作为小的数据集，第二个数据集是抽取了三个特征，子结构，靶点，酶（少了一个pathways)。