8

对模型进行了训练。这次又是什么?

 3 years ago
source link: https://panchuang.net/2021/07/11/%e5%af%b9%e6%a8%a1%e5%9e%8b%e8%bf%9b%e8%a1%8c%e4%ba%86%e8%ae%ad%e7%bb%83%e3%80%82%e8%bf%99%e6%ac%a1%e5%8f%88%e6%98%af%e4%bb%80%e4%b9%88%ef%bc%9f-2/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

对模型进行了训练。这次又是什么?

fendouai • 2021年7月11日 am5:05 • Medium

它花了数周的时间收集、标记、重新标记、检查、调整大小和重新命名数千张图片。你仔细地试着训练各种模特,有成功的也有失败的,你在空中诅咒,但你最终选择了最好的追求者。这次又是什么?

尽管培训的评估阶段提供了对算法性能和预测质量的一些洞察,但我们发现它大多没有达到整体水平:需要引入另一个性能衡量标准。但是我们到底在测试什么呢?

  • 误报:当模型发现某个类的某个实例并不实际出现在框架中时。即使这意味着触发不必要的警报(这是可以避免的),但这种情况并不意味着未检测到的危险场景未被检测到。
  • 假阴性:当模型没有找到框架中存在的类的特定实例时。这是我们最担心的情况,因为这意味着涉及的潜在危险被忽视了。我们决定引入的第一个度量需要具体测量这种情况,因为它直接关系到模型的可靠性。

我们如何测量假阳性呢?嗯,我们想出了一个脚本,它以以下方式自动执行此测试:

  • 我们组织了一个“测试集”,它由视频和图像组成,其中包含不同的场景:不同的天气、相机、灯光和情况,这些都是我们的工作人员以前手动标记的。我们知道集合中的帧总数和标签总数。
  • 我们构建了一个程序,它拾取模型,运行它通过测试集,并对模型生成的检测进行计数。然后它输出网络检测,所以我们可以开始比较人工与人工智能比率。

理想情况下,这个比率应该是1,但现实地讲,如果网络不是无故障的,情况就不会是这样。在此测试算法的未来版本中,它将输出每一帧的检测结果,这样人类就可以手动对比输出,看看我们是否可以发现任何特别具有挑战性的场景,我们可以添加这些场景来丰富我们的数据集,使模型更可靠。

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/11/%e5%af%b9%e6%a8%a1%e5%9e%8b%e8%bf%9b%e8%a1%8c%e4%ba%86%e8%ae%ad%e7%bb%83%e3%80%82%e8%bf%99%e6%ac%a1%e5%8f%88%e6%98%af%e4%bb%80%e4%b9%88%ef%bc%9f-2/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK