赠书 | 新手指南——如何通过HuggingFace Transformer整合表格数据

<div id="js_content">
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-4c54617a23ef52d12833c7291e628595">
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-b27c9a184074e0b0d1d35621edb1eaef">
作者 | Ken Gu 
翻译| 火火酱~，责编 | 晋兆雨
出品 | AI科技大本营
头图 | 付费下载于视觉中国
*文末有赠书福利
不可否认，Transformer-based模型彻底改变了处理非结构化文本数据的游戏规则。截至2020年9月，在通用语言理解评估（General Language Understanding Evaluation，GLUE）基准测试中表现最好的模型全部都是BERT transformer-based 模型。如今，我们常常会遇到这样的情形：我们手中有了表格特征信息和非结构化文本数据，然后发现，如果将这些表格数据应用到模型中的话，可以进一步提高模型性能。因此，我们就着手构建了一个工具包，以方便后来的人可以轻松实现同样的操作。 
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-1de86d064ddafe1f6093e1997cc21b60" width="830"> 
<h2></h2>
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-b7a73968803600403ddc62f78a8404aa">在Transformer的基础之上进行构建
使用transformer的主要好处是，它可以学习文本之间的长期依赖关系，并且可以并行地进行训练（与sequence to sequence模型相反），这意味着它可以在大量数据上进行预训练。
鉴于这些优点，BERT现在成为了许多实际应用程序中的主流模型。同样，借助HuggingFace Transformer之类的库，可以轻松地在常见NLP问题上构建高性能的transformer模型。
目前，使用非结构化文本数据的transformer模型已经为大众所熟知了。然而，在现实生活中，文本数据往往是建立在大量结构化数据或其他非结构化数据（如音频或视觉信息）的基础之上的。其中每一种数据都可能会提供独一无二的信号。我们将这些体验数据（音频、视频或文本）的不同方式称为模态。
以电商评论为例。除了评论文本本身之外，还可以通过数字和分类特征来获取卖家、买家以及产品的相关信息。
在本文中，我们将一起学习如何将文本和表格数据结合在一起，从而为自己的项目提供更强的信号。首先，我们将从多模态学习领域开始——该领域旨在研究如何在机器学习中处理不同的模态。
<h2></h2>
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-ce580d24c0ad1daf31510145577cb979">多模态文献综述
目前的多模态学习模式主要集中在听觉、视觉和文本等感官模态的学习上。
在多模态学习中，有多个研究分支。根据卡内基梅隆大学（Carnegie Mellon University）MultiComp实验室提出的分类方法，我们要处理的问题属于多模态融合（Multimodal Fusion）问题——如何将两种或两种以上的模态信息结合起来进行预测。
由于文本数据是我们的主模态，因此我们将重点关注以文本作为主要模态的文献，并介绍利用transformer架构的模型。
<h2></h2>
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-3c4c74167c84e635567c738a525f3277">结构化数据的简单解决方案
在深入研究各文献之前，我们可以采取一个简单的解决方案：将结构化数据视为常规文本，并将其附加到标准文本输入中。以电商评论为例，输入可构建如下：Review. Buyer Info. Seller Info. Numbers/Labels. Etc.不过，这种方法有一个缺点，那就是它受到transformer所能处理的最大令牌长度的限制。
<h2></h2>
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-ca87c439f1f049c349889d3c84d3b3a5">图像和文本Transformer
在过去的几年中，用于图像和文本的transformer扩展取得了显著的进步。Kiela等人在2019年发表的论文《Supervised Multimodal Bitransformers for Classifying Images and Text》中，将预训练的ResNet和预训练的BERT分别应用在非模态图像和文本上，并将其输入双向transformer。其关键性创新是将图像特征作为附加令牌应用到transformer模型中。 <img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-c45f9e3692e9a5412b2aa9b28885cd8d" width="830">此外，ViLBERT（Lu et al.，2019）和VLBert（Su et al.，2020）等模型对图像和文本的预训练任

赠书 | 新手指南——如何通过HuggingFace Transformer整合表格数据

浏览过的版块