https://www.pnas.org/doi/full/10.1073/pnas.1803294115
论文 | node | edges | types | |
DeepDDI | 2159(1710) | 192284 | 86 | |
MUFFIN | 2323(1569) | 172426 | 81 | |
Me | 1872 | 362208 | ||
MDF-SA-DDI | 572/1258 | 74528/323539 | 65/100 | |
DDIMDL | 572/572 | 37264/74528 | 65 | |
SumGNN | 1709 | 192224 | 86 | |
DeepDDI:2159个approved,包含smiles,但是我把DeepDDI里面那个192284个边关系的拿出来写代码数一下实际用到只有1710个,可能是本来99种关系,消除到86种的话,去掉了几百种?Bitbucket
MUFFIN:192284是86种关系每一种都超过了5个实例,MUFFIN种筛选出每一种都超过10个实例的。同样的,统计multi_ddi_sift.txt这个实体个数是1569,但是drugname_smiles.npy是2323个。变成了172426个关系。
Me:我从drugbank上下载了drugbank.xml v5.0.3版本,然后从里面抽出来aproved 且包含smiles的,个数是1872个作为实体集。然后抽取两个实体都在这个实体集中的DDI,结果居然是362208。我不理解
DDIMDL:论文中提到,从DrugBank中收集包含1.substructure,targets, pathway,enzymes的药物,使用KEGG数据库获得pathway,target和enzymes都是从drugbank直接获取,最后获得了57个药物,74528个药物对。但是在代码中是572实体,37264个药物对。。。我不理解。。。
MDF-SA-DDI:文中提到利用DDIMDL中的药物对572/74528个药物对作为小的数据集,第二个数据集是抽取了三个特征,子结构,靶点,酶(少了一个pathways)。