【深度学习】Word2vec词向量模型教你重新读文献

今天介绍的文章是7月3日在Nature上发表的 Unsupervised word embeddings capture latent knowledge from materials science literature。美国能源部劳伦斯伯克利国家实验室的Vahe Tshitoyan（现于谷歌）等研究人员利用数百万篇材料科学的文献摘要训练得到了Word2vec词向量模型，该模型可以推断材料性质以及预测具有热电效应等特定属性的新材料，这可能对新材料发现有很好的指导意义。

——研究背景和方法——
材料科学的常见数据库通常是结构化的，也就是说可以直接被机器读入处理的形式。而学术圈中大量的知识是通过文献（即文本，或者说自然语言）的形式存在，其中包含很多数据之间的深层联系。这些联系是被作者解读并直接表述于文字的知识，如果能自动收集捕获这些联系，那么对于模型学习这些的数据将会有很大的帮助。另一方面，将文本中的词汇映射为高维空间中的向量（词向量），是自然语言处理（NLP）领域的常见手段，该方法可以同时保留语法、语义等关系，这使得模型能够轻松处理海量的文本信息而正确完成自然语言相关的任务。

在这篇文章中，Tshitoyan等人使用这种无监督的自然语言处理技术，尝试提取材料科学文献中的知识。他们收集了从1922年到2018年发表在超过1000个杂志上的330万篇文献摘要，从中筛选出与材料科学相关的摘要，作为训练Word2vec词向量模型的训练集，得到了将近50万词、长度为200维的词向量。训练的过程中除了输入的摘要文本之外，没有其他化学知识等信息的指导。由于是材料科学的文献摘要，所以包含大量的化学式和物性名词，如“LiCoO[sub]2[/sub]”和“ferromagnetic”，这些也被统一地编码到词向量。

——结果分析——

1. 词向量性质考察

研究人员首先利用这些词向量进行了简单的性质考察。比如寻找与“LiCoO[sub]2[/sub]”性质相近的材料，是通过其他材料的词向量，如“LiMn[sub]2[/sub]O[sub]4[/sub]”，与“LiCoO[sub]2[/sub]”的词向量进行归一化点积，点积结果越大表示与越接近，从而得到了前五个与最相近的材料：

它们都是锂离子阴极材料，说明性质接近的材料在词向量空间中的位置也比较接近。

另一方面用类似的点积方法，还考察了这些词向量在推断对应物（analogies）的表现，发现对于先给出如“NiFeferromagnetic”的引导例子之后，能利用词向量正确推断出IrMn的对应性质是“antiferromagnetic”。

图1 用PCA将Zr、Cr、Ni以及其对应的氧化物、晶体结构名称的9个词向量投影到二维平面

更进一步，他们还发现：词向量空间是结构化的。比如研究人员将Zr, Cr和Ni这三种元素以及对应的氧化物、晶体结构名称的9个词向量投影到二维平面上，可以发现它们基本上是有组织地分布的（图1），元素到其氧化物的指向都是沿一个方向，到其晶体结构的指向都是沿另一个方向。所以可以有效地推断对应物也就很好理解了。有意思的一点是，各种化学元素在词向量空间的分布，还在某种程度上还原了元素周期表的位置分布（图2），这说明词向量空间不仅是结构化的，而且这种特定的结构可能是有化学意义的。

图2 a)用t-SNE将100种元素的词向量投影到二维并聚类，可以发现东北-西南走向的分布与元素周期表很接近 b)元素周期表对应的聚类类别标识

2. 预测具有特定属性的新材料

研究人员发现，有一些词尽管从来没有出现在同一篇摘要中，但是它们的词向量却很接近，比如“thermoelectric”和“Bi[sub]2[/sub]Te[sub]3[/sub]”，这启发他们也许能够利用这种现象来预测具有某种属性的新材料，比如“thermoelectric”（热电效应）。

他们首先找到7663种没有与“thermoelectric”同时出现在同一篇摘要中并具有热电数据的化合物，然后根据这些化合物的词向量与“thermoelectric”的词向量的归一化点积的大小来进行排名，并统计这些化合物用密度泛函理论（DFT）计算的热电效率因子（thermoelectric power factors，用来衡量热电效应的强弱）。可以发现预测排名前十的化合物，其平均热电效率因子是已知热电物质的平均最大热电效率2.4倍，是所有预测化合物（7663个）的3.6倍（图3）。并且通过与实验发现的83种热电材料的热电效率因子排名做斯皮尔曼相关分析，发现用词向量预测的排名与真实排名有59%的相关性，而直接使用DFT计算的热电效率因子对化合物进行排名，其相关程度只有31%，说明词向量给出的预测比起用理论计算的结果在某种程度上更具有指导意义！这里的预测并不是对未被发现的具有热电效应的化合物预测，而是指训练词向量时模型没有看到这些化合物与“thermoelectric”出现在同一篇摘要中，但是仍然认为这些化合物与热电效应的相关程度很高。

图3 词向量预测的7663种热电材料示意（左），以及对应的DFT计算的热电效率因子的分布（右）

3. 预测能力再探究

研究人员还使用不同年份区间的摘要（从而数据集大小也不同）来训练模型，并探究这样得到的模型的预测能力比较。比如将2001年之前的文献摘要用于训练得到词向量，词向量预测出前50的热电材料，然后用2001年开始逐年增加的文献摘要中报道的新热电材料来检验预测准确率并画出累积准确率的变化曲线（如图4a），发现词向量给出的逐年预测累积准确率（红线）要比随机结果（蓝线）和用DFT计算的预测结果（绿线）要更优。另外仔细考察了用2009年之前的摘要训练出来的词向量的预测结果，其前五名的化合物，在之后年份中的排名变化（如图4b）。

图4 累积预测准确率的逐年变化（左）：红线是各年份（虚线）的平均结果，蓝线和绿线见图例或上文；2009年预测的排名前五的热电材料在之后年份中的排名变化：星号表示在该年被实验发现有热电效应

这一部分的结果在笔者看来更像是噱头，因为使用不同年份之前的摘要训练的模型之间很难比较，训练集的大小、第一年的用于验证准确率的验证集等多种因素的不同，使得不同模型的结果没有直观的比较结果，比如2017年的预测累积准确率在两年后比2001年的准确率在18年后的低很多，但这不代表这用2001年的预测结果更好，因为2017年的模型用到的训练数据是更多的。另外，图b暴露了这种排名的不稳定性，所以也没有很强的实用价值。

——总结——

这是一篇很有意思的研究，通过Word2vec词向量模型“读”了数百万篇文献之后，我们借助模型对于大数据的整理结果可以从中发现很多新的知识。这体现了深度学习连接自然语言和自然科学强大的桥梁作用，凸显了知识的结构化组织对于发现新知识的作用，笔者相信深度学习作为一个工具还有很多的东西可以尝试应用，这篇研究提供了一个很好的参考。

参考文献：
Tshitoyan, Vahe, et al. "Unsupervised word embeddings capture latent knowledge from materials science literature." Nature 571.7763 (2019): 95.
点击左下角的"阅读原文"即可查看原文章。
作者：谢维新
审稿：林康杰
编辑：蔡臣静

GoDesign
ID：Molecular_Design_Lab
（扫描下方二维码可以订阅哦！）