对模型进行了训练。这次又是什么？

fendouai • 2021年7月11日 am5:05 • Medium

它花了数周的时间收集、标记、重新标记、检查、调整大小和重新命名数千张图片。你仔细地试着训练各种模特，有成功的也有失败的，你在空中诅咒，但你最终选择了最好的追求者。这次又是什么？

尽管培训的评估阶段提供了对算法性能和预测质量的一些洞察，但我们发现它大多没有达到整体水平：需要引入另一个性能衡量标准。但是我们到底在测试什么呢？

误报：当模型发现某个类的某个实例并不实际出现在框架中时。即使这意味着触发不必要的警报(这是可以避免的)，但这种情况并不意味着未检测到的危险场景未被检测到。
假阴性：当模型没有找到框架中存在的类的特定实例时。这是我们最担心的情况，因为这意味着涉及的潜在危险被忽视了。我们决定引入的第一个度量需要具体测量这种情况，因为它直接关系到模型的可靠性。

我们如何测量假阳性呢？嗯，我们想出了一个脚本，它以以下方式自动执行此测试：

我们组织了一个“测试集”，它由视频和图像组成，其中包含不同的场景：不同的天气、相机、灯光和情况，这些都是我们的工作人员以前手动标记的。我们知道集合中的帧总数和标签总数。
我们构建了一个程序，它拾取模型，运行它通过测试集，并对模型生成的检测进行计数。然后它输出网络检测，所以我们可以开始比较人工与人工智能比率。

理想情况下，这个比率应该是1，但现实地讲，如果网络不是无故障的，情况就不会是这样。在此测试算法的未来版本中，它将输出每一帧的检测结果，这样人类就可以手动对比输出，看看我们是否可以发现任何特别具有挑战性的场景，我们可以添加这些场景来丰富我们的数据集，使模型更可靠。

原创文章，作者：fendouai，如若转载，请注明出处：https://panchuang.net/2021/07/11/%e5%af%b9%e6%a8%a1%e5%9e%8b%e8%bf%9b%e8%a1%8c%e4%ba%86%e8%ae%ad%e7%bb%83%e3%80%82%e8%bf%99%e6%ac%a1%e5%8f%88%e6%98%af%e4%bb%80%e4%b9%88%ef%bc%9f-2/

对模型进行了训练。这次又是什么？

对模型进行了训练。这次又是什么？

Recommend

Steven Levitt on Freakonomics and the State of Economics

仿真+教程：COMSOL Multiphysics 各模块18 分钟系列教程

Apptuitive Android Weekly Offer

电脑技术：无意间发现格式工厂也可以录屏，而且非常简答好用，效果也很好

Navigation in multi module Android Compose UI project + Hilt

Compose architecture: MVVM or MVI with Flow?

Using StateFlow over LiveData for end-to-end operations

Instagram-like particles animation using Jetpack Compose

How To Securely Build and Sign Your Android App With GitHub Actions

GitHub - maxkonovalov/MKRingProgressView: ⭕️ Ring progress view similar to Activ...

About Joyk