如何评价2022年数学建模小美赛？

小美赛12月2号就要开始比赛了，赛题难度如何？应该如何准备比赛？

期权匿名回答 · 2022-12-3 17:25:21

大家好呀，从昨天早上8点发布赛题到现在，我已经更新完成了小美赛D题的完整成品论文，全文29页，一些修改说明提醒6页，正文22页，附录1页。
本文章是对于赛题详细的手把手教你如何做的一个保姆级别教程，稍后我会录制视频版讲解，会在这个文章更新，请大家点赞关注收藏一下。
注意，本文章只是图文版讲解，进一步的更全面的视频讲解：
同时由于目前知乎只能看黑白版本的，因此为了方便大家，这里是彩色版的图文讲解以及视频讲解区：
小美赛D彩色图文讲解和视频讲解区总得来说，本题目难度比较低，因此做得很快，篇幅也是近期比赛里最少的，模型没什么可说的，主要是绘图以及理解题意，赛题难度比较低的时候，就一定要注意理解题目到底要让我们干什么，以及必须要注意一些小点，尽量做到全面考虑没有遗漏即可，在这方面而言，本题目还是有一些需要注意的点的。
我的论文总览：

摘要：

OK废话不多说，直接开始正文部分：
第一问：

题目要求我们寻找交易最多的群体和物种。做之前我们先看一下题目给的数据吧：

很明显我们是不知道各种表头的含义的，因此我们需要参考数据的说明表格：

我把上面的每一个都翻译了一下，然后直接写在了表格上，这里大家要注意的是，不要直接采用机翻的，有的需要人工翻译：

之后我们看一下题目问的原文：

大家注意，groups和species这两个词在原数据表格里是没有直接相匹配的表头的，因此上面的四个表头都需要进行统计：

另外，题目要求我们统计的是live wild，也就是活且野生，
很明显，原题目全是活的：

但并不全是野生的：

数据说明里有说到，这里的w表示的是wild......
因此既需要剔除其他两个，也就是不知道的和没有的。
剔除之后我就直接绘图统计分析了：

这里绘制条形图是方便大家既能看到数量也能看到占比，大家也可以绘制饼图。
OK第一问到这里结束。
第二问：

主要目的嘛，这次有表头对应了，purpose：
直接统计分析完事：

绘图，条形和饼图我都绘制了：

占比最大的描述一下就行了，第二问结束。
第三问：

看一下原题目的数据：

最多到2021，没有2022的，考虑下载原题目给的那个网站的数据：

下载之后看了看，还是没有2022的：

那就理解成到2022年开始吧，还是按照原题目的数据来源就行：
问你的是贸易情况，那就绘制进出口数量：

然后描述一下就行了。结束。
第四问：

大家要注意，到了这一问，问的是是否有关，有的人可能直接就去搜索相关文献或者说明了，然后直接引用到论文里，这样是不对的！
因为题目是给了我们贸易的相关数据的，因此必须要基于题目给的数据进行量化分析。
重大传染病就两个：SARS和新冠
分别分析一下这两个的起源时间、起源地、起源物种，然后找题目当年对应的贸易数据，然后绘图统计分析就行：

当然了具体分析的时候还是有一些坑的，这个相关性究竟怎么样，究竟怎么联系数据和病毒爆发之间的关系，还需要加上一些病毒本身的内部机理分析，没有那么简单，具体怎么回事为了保证限量，只给拿到我的完整成品论文的人去看哈。
这一问结束。
第五问：

到了这一问，问的是对于经济和社会的影响，题目是没有给这方面数据的，因此这一问直接查文献就行，我最终查到了对于禁止野生动物贸易的利弊以及措施比较权威和全面的说明：

第六问：

写信嘛，主要就是把自己全文的观点阐述一下再加上上一问的措施，这里要注意的是，不要直接搬摘要过来，信最大的不同是：
你需要把摘要里那些关于数学模型的字眼删掉，只保留核心的结论，意思也就是说，你要确保看到你信的人，即便完全不懂数学模型，也能充分理解你在说什么：

Ok彻底结束，大致的思路就是这些，我上述29页的完整成品原创论文以及我中间用到的所有数据表格都在：

注意，本文章只是图文版讲解，进一步的更全面的视频讲解：
同时由于目前知乎只能看黑白版本的，因此为了方便大家，这里是彩色版的图文讲解以及视频讲解区：
<a href="http://link.zhihu.com/?target=https%3A//docs.qq.com/doc/p/8ceddb3028bb9a37e1b9b32759b281bd2be099e7" data-draft-node="block" data-draft-type="link-card" class=" wrap external" target="_blank" rel="nofollow noreferrer">小美赛D彩色图文讲解和视频讲解区总得来说，本题目难度比较低，因此做得很快，篇幅也是近期比赛里最少的，模型没什么可说的

期权匿名回答 · 2022-12-3 17:25:30

12.3日更新：已有D题完整成品讲解，C题正在写：
数模陪跑：2022小美赛全方位汇总
2022小美赛（认证杯）D题完整成品讲解及视频讲解
11.2早更新：视频初步讲解已有：

原文：
大家好，这里是成品讲解和视频讲解更新的地方，初步的选题建议及思路移步：
<a href="http://zhuanlan.zhihu.com/p/588535779" data-draft-node="block" data-draft-type="link-card" class="internal">2022小美赛（认证杯）数学建模原创选题建议及D题初步思路来啦！大家点击追更本回答，并且点赞收藏关注一下本文章，稍后我会更新选题建议视频，大概今晚更新完整的图文讲解及视频讲解，

D题：

第一问：

待更新。。。

第二问：

待更新。。。

第三问：

。。

大家点赞关注收藏并且追更本文，防止迷路，等我更新哈。

期权匿名回答 · 2022-12-3 17:25:35

点击链接加入2022 认证杯数模D题参考思路
【小美赛】：https://jq.qq.com/?_wv=1027&k=4xMQoOSL
D题是一道数据分析和相关分析的题目，需要我们通过对野生动物贸易数据的处理和分析，进而研究野生动物贸易与重大传染病疫情的相关性，并评估对经济和社会产生重大影响。因此做该题，需要小伙伴们主要有三个方面的能力:
第一、处理数据的能力，如熟练使用 python 中的numpy、pandas 等库，或者r语言等其他技能，尤其是大文件、多文件处理的能力;第二、一些统计学的知识，因为题目要求对数据做一些描述统计分析和相关分析的工作:第三、数据收集的能力，官方只给了动物贸易的数据，而在问题四、问题五中，要分析与重大传染病疫情的关系和对经济和社会产生重大影响,需要额外收集数据对着两个方面进行量化才能完成，因此需要收集相关方面的数据。总体而言，该题难度一般，适合有比较好的统计学基础和数据分析编程技能的同学选择;不过每一问基本都比较简单，预计选的人也会比较多，还需小伙伴们自行斟酌。
针对问题一，哪些野生动物群体和物种的交易最多(就从野外捕获的活动物而言)?基本是对 Class Order Family Genus Term等表示动物分类的特征做
些聚合分析(各字段的具体含义译细可见题目附录中的pdf文件)，但是数据本身是存在比较多缺失值的，需要首先对缺失值作补全或删除，可以根据部分有值的文件的数据来补全缺失的部分，统计各群体或物种被交易的频次，然后给出交易频数最大的物种即可，另外需要注意，题目要求是“从野外捕获的活动物”，因此要先做一下筛选过程。
针对问题二,这些动物贸易的主要目的是什么?这一题主要的要分析 purpose
这一列，目的可以是用于商业或非商业等，具体代码含义如下:

首先去除缺失值，然后对各目标类别进行聚合分析统计频数，分析频数规律即可。
针对问题三，在过去20年(2003-2022年)，贸易发生了怎样的变化?这一题需要按年进行分析，贸易的变化可从，主要贸易的物种类别、交易的主要目的、交易的物种来源、交易量的大小变化等角度入手，分析得到每一年的数据，然后进行对比分析其变化趋势,找到可能的变化规律即可,可以作图进行可视化分析，也可以使用同比、环比等指标进行刻画，主要是描述统计的方法。
针对问题四，野生动物贸易是否与重大传染病疫情有关?这需要我们首先去找到一些重大传染病疫情的事件数据，可以从题目提到的几种传染疾病，SARS、埃博拉病毒、新冠病毒等入手;可以对发生前和发生后的数据做简单的皮尔逊相关分析、列联表相关分析等，利用列联相关系数、V相关系数等来刻画;如果同时有疾病过程的变化数据，也可以对变化过程和贸易数据作以13析。
针对问题五，你同意长期禁止野生动物贸易吗?它是否会对经济和社会产生重大影响，为什么?这一题中，首先需要收集经济和社会影响的指标，构建出一套指标体系，进而对这些数据做如问题四类似的相关数据分析，数据足够的话可判断。
于问题六，写信给美国政府有关部门，说明你的观点和政策建议。建议参考参考文件附作以及前面题目的发现撰写，合理即可。
【小美赛】：https://jq.qq.com/?_wv=1027&k=4xMQoOSL

期权匿名回答 · 2022-12-3 17:25:43

2022小美赛赛题+思路+代码已发布!
A题翼龙是如何飞行的
B题序列的遗传过程
C题对人类活动进行分类
D题是否应长期禁止野生动物贸易
从赛题难度来看B>A>C>D，其中CD属于ICM交叉学科类赛题，难度系数相对较小，建议小白同学可以选择C或D，其中D题目虽然多，但每一问基本都很简单，预计选的人会比较多
本次平台将会提供C和D的参考思路和资料，接下来将会陆续更新，请点击下方文章领取
数学建模KEEP：2022年数学建模小美赛解题思路资料汇总！
2022小美赛C题参考思路！
C题本质上来说属于分类问题，而且属于有导师分类问题，其中首先需要进行数据的预处理工作，这是因为题目给的数据很多都是量级和单位不一样的，如果不对数据进行处理就贸然分类将导致结果的不准确。
数据预处理包括：
数据清理（清洗）：去掉数据中的噪声，纠正不一致。
数据集成：将多个数据源合并成一致的数据存储，构成一个完整的数据集，如数据仓库。
数据归约（消减）：通过聚集、删除冗余属性或聚类等方法来压缩数据。
数据变换（转换）：将一种格式的数据转换为另一格式的数据(如规范化)。
在这里需要做的主要是数据清理和数据变换，其中数据清理是将数据集中额异常数据和缺失数据进行处理，数据变化常见的是归一化处理
数学建模KEEP：2022年数学建模小美赛解题思路资料汇总！
将数据缩放到0和1之间，公式如下：

标准归一化

将数据所缩放为均值是0，方差为1的状态，公式如下：
其缩放结果为：

均值归一化

将数据缩放到-1和1之间，公式如下：

数据处理完成后即可进行分类工作，分类模型由于第三问牵扯到过拟合问题，所以这里我比较推荐神经网络，因为神经网络很容易出现过拟合行为，但也可以对过拟合行为进行修正。

BP算法是一种有监督式的学习算法，其主要思想是：输入学习样本，使用反向传播算法对网络的权值和偏差进行反复的调整训练，使输出的向量与期望向量尽可能地接近，当网络输出层的误差xx小于指定的误差时训练完成，保存网络的权值和偏差。具体步骤如下：
（1）初始化，随机给定各连接权[w],[v]及阀值θi，rt。
（2）由给定的输入输出模式对计算隐层、输出层各单元输出
（3）计算新的连接权及阀值，计算公式如下：
（4）选取下一个输入模式对返回第2步反复训练直到网络设输出误差达到要求结束训练。
对于第二问评价模型的泛化能力：
神经网络的泛化能力(generalization)，是指BP神经网络在学习完成以后,BP神经网络的推广应用能力。泛化能力是衡量BP神经网络性能优劣的一个重要方面。这里可以选择数据分段的判别方式
所谓数据分段指的是将数据按照不同的比例进行验证，如7:3、6:4、5:5等划分为训练数据和验证数据，然后分别计算验证数据的误差即可。误差可以用MSE(均方误差)计算

对于第三问请研究并克服过拟合问题，这里可以推荐的方法是基于遗传算法的BP神经网络算法，以下是优化的过程

1 模型与数据介绍
下面以MATLAB官方提供的化学传感器的数据集为例，进行建模。
2 数据介绍：采集某个实验过程的数据，将8个传感器的采样数据作为输入（x），第9个传感器的采样数据作为输出（y）。请替换为题目给的数据
2. 数据格式如下：

3 读取数据：
3.1 %% 读取读取
data=xlsread(&#39;数据.xlsx&#39;,&#39;Sheet1&#39;,&#39;A1:I498&#39;); %%使用xlsread函数读取EXCEL中对应范围的数据即可
%输入输出数据
input=data(:,1:end-1); %data的第一列-倒数第二列为特征指标
output=data(:,end);  %data的最后面一列为输出的指标值
N=length(output); %全部样本数目
testNum=100; %设定测试样本数目
trainNum=N-testNum; %计算训练样本数目
4 GA与BP参数设置
1） BP参数设置
对权重和阈值有关的参数进行说明：
a). 输入层和输出层节点使用size函数直接获取。函数用法：[M,N]=size(A)，M为A的行数，N为A的列数。size(A,2)得到的是第二个参数N，即列数。此数据中，输入8个维度指标，输出的为1个维度指标。即输入层节点为8，输出层节点为1。
1. inputnum=size(input,2); %输入层神经元节点个数
2. outputnum=size(output,2);  %输出层神经元节点个数
b). 隐含层节点的确定过程，使用循环来遍历范围内的隐含层节点与训练误差情况。因为要找最小的误差，所以初始化训练误差时，将MSE设置较大的数字，用于在循环中确定最佳的隐含层节点。
1. %确定隐含层节点个数
2. %采用经验公式hiddennum=sqrt(m+n)+a，m为输入层节点个数，n为输出层节点个数，a一般取为1-10之间的整数
3. MSE=1e+5; %初始化最小误差
4. for hiddennum=fix(sqrt(inputnum+outputnum))+1:fix(sqrt(inputnum+outputnum))+10
5.
c). 其他BP参数，学习速率，训练次数，训练的目标误差等
1. % 网络参数
2.    net.trainParam.epochs=1000;       % 训练次数
3. net.trainParam.lr=0.01;          % 学习速率
4. net.trainParam.goal=0.000001;    % 训练目标最小误差
2）遗传算法GA参数设置
1. %初始化ga参数
2. PopulationSize_Data=30; %初始种群规模
3. MaxGenerations_Data=50; %最大进化代数
4. CrossoverFraction_Data=0.8;  %交叉概率
5. MigrationFraction_Data=0.2; %变异概率
3.3 遗传算法优化BP的设计
1）优化变量的设计
使用遗传算法求解优化问题时，对于决策变量（优化变量）有三种编码方式：二进制编码，向量形式编码，矩阵形式编码。
由于权重和阈值分别以m×n维的矩阵，向量形式存在与BP神经网络结构（net）中。为方便对每个元素都进行优化，先将元素分别取出，然后按取的顺序放入到向量（染色体）中，完成编码。权重和阈值的经验范围为[-1,1]，可适当将寻优的范围放宽，取[-3,3]。
优化变量（元素）个数的计算如下：
1.nvars=inputnum*hiddennum_best+hiddennum_best+hiddennum_best*outputnum+outputnum; %变量维度
2. lb=repmat(-3,nvars,1); %自变量下限 %repmat得到一个nvars×1维的向量，每个元素的值都为-3，即优化变量下限
3. ub=repmat(3,nvars,1); %自变量上限
2）适应度函数的设计
采用以下公式计算适应度值。

式中，TraingingSet，TestingSet，分别为训练集和测试集的样本。因为预测精度越高，说明误差越低，所以公式设计为求解最小的均方误差。使用遗传算法后，适应度函数值越小，表明训练越准确，且兼顾模型的预测精度更好。
3）算法设计
将遗传算法视为一个“黑箱”优化器。在确定了优化的变量与目标适应度函数后，只需要经过该“黑箱”，即可输出最小的误差（精度最好值）和最优解变量，再把变量赋给BP神经网络的权值矩阵与阈值向量的相应位置，进行优化后的BP训练与测试即可。说明：在遗传算法的“黑箱”求解器中进行的算法操作为：选择、交叉与变异。

数学建模KEEP：2022年数学建模小美赛解题思路资料汇总！
D题参考思路

小美赛D题是关于野生动物保护的，其中第一问和第二问都是数据分析类赛题，从第三问开始有些难度，
其中第三问是在过去的二十年里（2003-2022年），贸易发生了什么变化？
参考思路：这里是分析近20年的贸易数据，这里可以建立一个回归拟合模型用于分析数据的变化（理论上分析变化将数据做成图进行描述即可，但这样也太简单了，所以选择回归拟合模型即可）找到各类野生动物近20年的贸易总额后，建立回归拟合模型即可用于分析数据的变化。

野生动物贸易是否与重大传染病的疫情情况有关？
这里主要是建立传染病与野生动物贸易之间的关系，理论上野生动物贸易额越多传染病死亡人数可能就越高，因此可以建立一个野生动物贸易额与传染病疫情死亡人数或感染人数的相关性分析：

在变量的相关性检验中，相关系数通常常用来表示两组变量相关的程度，取值范围是。该值等于0时表示两变量互不相关，大于0时表示正相关，小于0时表示负相关。皮尔逊（Pearson）和斯皮尔曼（Spearman）这两种相关系数最为常用，连续型变量使用皮尔逊相关系数，定序变量或非正态分布的变量使用斯皮尔曼相关系数。
皮尔逊相关系数
由于协方差的值会受X和Y本身的波动范围影响，不能绝对的表现两变量的相关性，因此对协方差进行标准化后，得到皮尔逊相关系数：

斯皮尔曼相关系数又叫斯皮尔曼等级相关系数，该相关系数计算公式为：

对于后面的几问：你同意长时间禁止野生动物贸易吗？它是否会对经济和社会产生巨大的影响，为什么？
思路：答案肯定是同意长期封禁的，这里可以采取类比法，将其他国家针对野生动物禁止使用但并未对经济产生影响的证据来表明即可；
另一种思路是建立模型来证明，中国在2020年、2021年均对野生动物进行了立法，新冠肺炎是由野生动物贸易导致的，因此可以先将中国前20年的经济数据找出来，例如找到2000~2019年的经济数据，然后建立灰色预测模型或其他预测模型对2020、2021经济进行预测，再和实际经济数据进行对比，如果发现预测的高于实际经济数据表明新冠肺炎对经济发展产生了很大的影响，间接可以推导野生动物贸易导致新冠肺炎而对经济社会产生了很严重的影响，因此需要禁止！

数学建模KEEP：2022年数学建模小美赛解题思路资料汇总！

期权匿名回答 · 2022-12-3 17:26:02

更新进展

（1）2022-12-2 9:00 发布预售
（2）2022-12-2 10:40 发布建模思路、代码以及参考文献
（3）待更新内容：进一步对全部数据分析
1 题目

D题：野生动物贸易是否应该长期禁止

野生动物市场被怀疑是当前疫情和2002年SARS疫情的源头，而食用野肉被认为是非洲埃博拉病毒的一个源头。新冠病毒被认为起源于武汉的一个野生动物市场，在新冠病毒爆发后，中国最高立法机构永久性地收紧了对野生动物交易的规定。一些科学家推测，一旦疫情结束，这一紧急措施将被取消。
从长远来看，野生动物产品贸易应该如何监管?一些研究人员希望全面禁止野生动物贸易，无一例外，而另一些人则表示，一些动物的可持续贸易是可能的，对依赖其谋生的人是有益的。据北京非营利组织企业家与生态学会估计，禁止食用野生动物可能会使中国经济损失500亿元人民币(合71亿美元)，并导致100万人失业。
中国武汉病毒学研究所的史正立和崔杰领导的一个团队，在追踪致命的SARS病毒的起源的过程中，终于在2017年找到了确凿的证据。在云南省一个偏远的洞穴里，病毒学家发现了一个马蹄形蝙蝠种群，它携带的病毒毒株具有2002年传染给人类的那种病毒的全部基因构建单元，这种病毒在全球造成近800人死亡。研究人员在2017年11月30日的《公共科学图书馆·病原体》杂志上报告称，这种致命菌株很容易从这样的蝙蝠种群中产生。另一个悬而未决的问题是，来自云南蝙蝠的病毒如何能够在1000公里外的广东传播给动物和人，而在云南本身却没有引起任何疑似病例。野生动物贸易就是答案。虽然野生动物在食用时被高温烹煮，但有些病毒很难存活，人类在野生动物市场上可能会接触到动物分泌物。他们警告说，这些成分已经为类似疾病再次出现做好了准备。
野生动物贸易有许多负面影响，其中最重要的是:
人口的减少和灭绝
入侵物种的引入
向人类传播新疾病

我们使用CITES贸易数据库作为我的数据来源。该数据库包含2000多万份贸易记录，并且可以公开访问。附录是1990 - 2021年哺乳动物贸易的数据，完整的数据库还可以通过以下链接获取:
中国移动云盘短信小程序要求你的团队建立合理的数学模型，分析数据，并解决以下问题:
1.哪些野生动物群体和物种的交易最多(就从野外捕获的活动物而言)?
2.这些动物贸易的主要目的是什么?
3.在过去20年(2003-2022年)，贸易发生了怎样的变化?
4.野生动物贸易是否与重大传染病疫情有关?
2 思路解析及代码实现

python代码
（1）对数据读取，并分析每列的含义
0 Year                      年份
1 App.
2 Taxon                      种群
3 Class                      类别
4 Order                      订单
5 Family                   科
6 Genus                      属，一级分类
7 Importer                   进口
8 Exporter                   出口
9 Origin                   源生地
10  Importer reported quantity  进口数量
11  Exporter reported quantity  出口数量
12  Term                      存活状态
13  Unit                      单位
14  Purpose                   目的
15  Source                   来源
题目要求分析哪些野生动物群体和物种的交易最多(就从野外捕获的活动物而言)?
我理解的Source就是分为野外捕获（W）和饲养（U）的两种，题目的意思是要求选择Source=W的数据，分析种群数量分布和物种数量分布

（2）分析这些动物贸易的主要目的是什么?
可视化Purpose，并弄清楚每个字母表示的含义，结合论文进行分析原因

（3）在过去20年(2003-2022年)，贸易发生了怎样的变化？
获取2003到2022的数据，计算进口和出口平均数量，并可视化分析，结合论文以及疫情的发生时间进行分析

（4）野生动物贸易是否与重大传染病疫情有关?
查阅论文疫情的发生时间，分析疫情与贸易野生动物品种及数量的相关性。

3 建模方案及代码下载

（1）方法一：
自我修养的板凳/BetterBench-Shop
（2）方法二
https://mbd.pub/o/bread/Y5yclpxv（3）本文历史竞赛博客

数学建模入门到精通_Better Bench的博客-CSDN博客

如何评价2022年数学建模小美赛？

5 个回复