他们首先找到7663种没有与“thermoelectric”同时出现在同一篇摘要中并具有热电数据的化合物,然后根据这些化合物的词向量与“thermoelectric”的词向量的归一化点积的大小来进行排名,并统计这些化合物用密度泛函理论(DFT)计算的热电效率因子(thermoelectric power factors,用来衡量热电效应的强弱)。可以发现预测排名前十的化合物,其平均热电效率因子是已知热电物质的平均最大热电效率2.4倍,是所有预测化合物(7663个)的3.6倍(图3)。并且通过与实验发现的83种热电材料的热电效率因子排名做斯皮尔曼相关分析,发现用词向量预测的排名与真实排名有59%的相关性,而直接使用DFT计算的热电效率因子对化合物进行排名,其相关程度只有31%,说明词向量给出的预测比起用理论计算的结果在某种程度上更具有指导意义!这里的预测并不是对未被发现的具有热电效应的化合物预测,而是指训练词向量时模型没有看到这些化合物与“thermoelectric”出现在同一篇摘要中,但是仍然认为这些化合物与热电效应的相关程度很高。