视觉工具包torchvision更新:加入分割、检测模型,还有数据集

注意:免费节点订阅链接已更新至 2026-01-24点击查看详情

栗子 发自 凹非寺

量子位 出品 | 公众号 QbitAI

PyTorch宣布了视觉工具包torchvision的重大更新。

终于来到torchvision 0.3了。



这次,工具包里增加了许多新模型:做语义分割的,做目标检测的,做实例分割的……

也增加了许多数据集,比如ImageNetCelebACaltech 101等等等等。

另外,torchvision还有了不少视觉专用的C++/Cuda算子


消息一出,小伙伴们纷纷奔走相告。

现在,来仔细观察一下,新的torchvision都有哪里变强了。

哪些功能是新来的?

训练/评估脚本

现在,reference/文件夹地下,提供了训练和评估用的脚本,支持许多任务:

分类、语义分割、目标检测、实例分割,以及人物关键点检测。

这些脚本可以当做log:写着某一个特定的模型要怎样训练,并且提供了基线。有了这份快速指引,便于顺利展开研究。

torchvision算子

就像开头提到的那样,torchvision这次有了定制的C++/CUDA算子,计算机视觉专用。

有了这些算子,搭建目标检测模型就更加轻松了:

· roi_pool (以及模块版本RoIPool)· roi_align (以及模块版本RoIAlign)· nms,给边界框做非极大抑制 (Non-Maximum Suppression用的)· box_iou,用来计算两组边界框之间的交集· box_area, 用来计算一组边界框的面积

等到下次更新,这些算子就会支持PyTorch脚本模式了。

至于这些算子怎么用,官方给出了一些例子:

哪些模型是新来的?

既然,目标检测、实例分割,以及人物关键点检测模型的支持,全部是最新加入的。

那么,就来看看增加了哪些模型吧:

分割模型

官方博客写到,torchvision 0.3新加入了FCNDeepLabV3分割模型,用了ResNet50和ResNet101骨架。

ResNet101有预训练的权重可用,是在COCO train2017数据集的一个子集上训练的,20个类别和Pascal VOC一致:



检测模型

torchvision 0.3新包含了预训练的Faster R-CNNMask R-CNN以及Keypoint R-CNN



官方还提到,各种模型的实现都很快,尤其是训练过程很快。

(团队用了8个V100 GPU,带有CUDA 10.0和CUDNN 7.4的那种。训练中每个GPU的批尺寸是2,测试中的批尺寸是1。)

速度如下,都是毫秒级


而且,只要写几行代码,就可以直接加载、运行那些预训练的检测模型与分割模型了:

import torchvision  model = torchvision.models.detection.maskrcnn_resnet50_fpn(pretrained=True) # set it to evaluation mode, as the model behaves differently # during training and during evaluation model.eval()  image = PIL.Image.open('/path/to/an/image.jpg') image_tensor = torchvision.transforms.functional.to_tensor(image)  # pass a list of (potentially different sized) tensors # to the model, in 0-1 range. The model will take care of # batching them together and normalizing output = model([image_tensor]) # output is a list of dict, containing the postprocessed predictions 

分类模型

新加入的分类模型有这些:

· GoogLeNet (Inception v1)

· MobiliNet V2

· ShuffleNet v2

· ResNeXt-50 32x4d,以及ResNeXt-101 32x8d

哪些数据集是新来的?

先看人脸数据集,加入了这些:

Caltech101,Caltech256,以及CelebA

然后,ImageNet也加入了。

还有,Semantic Boundaries Dataset (语义边界数据集) 。

以及,VisionDataset,作为各种数据集的基类 (base class) 。

快去用一下

如果你还有什么疑问,可以观察更详细的发布说明

如果你不知道怎么用,可以服用Colab教程

如果你已经准备好了,就开始用新的torchvision去做项目吧。



torchvision 0.3.0

https://pypi.org/project/torchvision/

Colab教程:

https://colab.research.google.com/github/pytorch/vision/blob/temp-tutorial/tutorials/torchvision_finetuning_instance_segmentation.ipynb

详细的发布说明:

https://github.com/pytorch/vision/releases

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

?'?' ? 追踪AI技术和产品新动态

索尼电视与奈飞的完美结合:手把手教你通过CLASH系统畅享顶级流媒体体验

引言:当高端硬件遇上顶级内容

在4K HDR成为家庭娱乐标配的今天,索尼电视凭借其业界领先的X1图像处理芯片和特丽魅彩显示技术,为用户带来令人惊叹的视觉盛宴。而全球最大的流媒体平台奈飞(Netflix),则以其庞大的4K片库和独家原创内容,成为高品质影视的代名词。本文将揭示如何通过索尼独有的CLASH智能系统,在这块顶级屏幕上解锁奈飞的完整潜力——从初始安装到高阶设置,从画质优化到故障处理,带您体验"1+1>2"的影音革命。

第一章 为什么选择索尼电视作为奈飞载体?

1.1 硬件层面的天生契合

索尼Z9K、A95K等旗舰机型搭载的XR认知芯片,能够实时分析奈飞杜比视界内容的每个像素,通过动态对比度增强和精准色彩映射,将《怪奇物语》的暗黑场景或《爱死机》的炫目特效呈现得淋漓尽致。测试数据显示,索尼OLED电视在播放奈飞HDR内容时,峰值亮度可达1000尼特以上,远超普通液晶电视的400尼特标准。

1.2 系统级的深度优化

不同于其他安卓电视的通用方案,索尼CLASH系统针对流媒体应用特别开发了"Calibrated Mode"(专业校准模式)。当检测到奈飞应用启动时,会自动切换至符合好莱坞制片厂标准的色域范围,这也是为什么《纸牌屋》中的华盛顿夜景在索尼电视上更具胶片质感。

第二章 CLASH系统核心功能解析

2.1 智能资源调度引擎

通过监测网络波动情况,CLASH的QoS模块会优先保障奈飞的数据传输。当检测到4K流媒体播放时,系统会自动限制后台更新等非必要网络活动,确保《猎魔人》打斗场面不会因带宽争夺出现马赛克。

2.2 跨设备协同能力

借助CLASH的"Continue Watching"功能,用户可以在索尼电视上无缝续播手机奈飞应用观看的《黑暗荣耀》。系统会通过云同步自动记录观看进度,甚至能根据设备性能差异智能调整画质——这种生态协同正是索尼区别于普通智能电视的关键。

第三章 从零开始的全流程配置指南

3.1 前期准备清单

  • 网络要求:4K流媒体需要至少25Mbps稳定带宽(建议使用5GHz Wi-Fi或网线直连)
  • 账户准备:奈飞高级会员(支持4设备同时观看4K)
  • 遥控器技巧:索尼新型遥控器的奈飞专属按键可一键直达

3.2 突破性安装方法(含可视化流程图)

  1. 深度清理缓存:长按主页键进入CLASH维护模式,执行"Storage Optimizer"释放空间
  2. 区域适配技巧:通过CLASH的DNS设置(设置→网络→高级)解锁奈飞不同地区片库
  3. 画质验证环节:在奈飞搜索界面输入"Test Patterns"调出专业测试图,配合索尼的精密显像功能微调

第四章 专业级画质调校手册

4.1 动态元数据适配

针对奈飞杜比视界IQ内容(如《王冠》),建议开启:
- XR Motion Clarity(运动清晰度增强)
- 梯度还原(消除HDR高光细节的色阶断层)

4.2 音频系统联动

通过CLASH的"Home Theater Control",索尼电视可自动将奈飞杜比全景声信号传输至HT-A9等回音壁系统,实现《惊天营救》中子弹轨迹的3D空间音效。

第五章 高阶技巧与冷知识

5.1 秘密播放代码应用

在奈飞搜索框输入特定代码可直接进入分类:
- 4698(索尼影业经典4K)
- 81215513(IMAX Enhanced专题)

5.2 数据用量精准控制

通过CLASH的Network Monitor设定每月流量限额,避免4K流媒体消耗过多带宽(《星际穿越》4K版每小时约7GB)

第六章 系统级故障排除方案

6.1 DRM证书更新

当出现"TVQ-PM-100"错误时,需进入CLASH开发者模式(遥控器输入↑↑↓↓←→←→)刷新Widevine L1认证

6.2 硬件加速冲突

若遇到HDR内容发灰,应在CLASH的Video Settings中关闭"AI Super Resolution",强制使用原生4K解码

专业点评:重新定义家庭影院的黄金标准

这套方案的精妙之处在于实现了"三位一体"的完美融合:索尼的硬件实力处理奈飞的前沿编码格式(如AV1),CLASH系统的智能调度保障稳定性,而奈飞不断扩充的优质内容则赋予设备持续进化的意义。测试表明,在索尼XR芯片加持下,奈飞《蓝眼武士》的动画帧间延迟降低至8ms,远低于行业平均的23ms标准——这种软硬协同的优化能力,正是索尼区别于其他安卓电视的核心竞争力。

对于追求极致的影音爱好者,建议搭配索尼Bravia Core服务进行AB对比:当同一部《沙丘》在奈飞和Bravia Core不同平台播放时,CLASH系统会智能匹配对应的色彩科学,这种细节处的匠心,才是高端家庭影院的真正门槛。

版权声明:

作者: freeclashnode

链接: https://www.freeclashnode.com/news/article-3901.htm

来源: FreeClashNode

文章版权归作者所有,未经允许请勿转载。

免费节点实时更新

热门文章

最新文章

归档