码迷,mamicode.com
首页 > 其他好文 > 详细

计算机来当球赛战术分析员 看看它们怎么演算的

时间:2018-12-03 20:14:05      阅读:209      评论:0      收藏:0      [点我收藏+]

标签:computer   超过   才有   计划   探讨   识别   ofo   col   包含   

为什么要研究「计算机视觉」?
「计算机视觉(computer vision)」是研究怎么让机器「看」这个世界。在相机、手机、监视器、行车纪录器等设备无所不在的今天,人类社会中的视讯数据量,前所未有地巨大。中研院信息所特聘研究员廖弘源与团队,教计算机懂得侦测、识别、分析这些影像讯息,进而做出判断或行动,如此可衍生各种重要的应用,如人脸辨识、对象侦测、车辆追踪、街景分析等。轻按快门,相机可以快速找到人脸对焦;机场快速通关窗口,机器能在几秒钟之内认出你是谁;装一台摄影机,就可以计算某段时间内有多少人车经过……「计算机视觉」加上「机器学习」技术的进步,让我们的生活更加安全及便利。不过,计算机可不是一开始就这么聪明的。
技术分享图片
教计算机看世界 特征辨认第一课
计算机「看」世界的方式,和你我很不一样。在我们眼中,一张图画里可能有人物有风景。但在计算机「眼」中,却只是几万几亿个不同颜色的小点(其实就是像素,pixel),以某个顺序排列起来而已。中央研究院信息所特聘研究员廖弘源,穷毕生之力,都在教计算机怎么「看」世界:从 0 与 1 组合成的数字世界中,找出各种「特征」、并据此识别出特定的对象,进而判断视讯数据的意义。比方说,妈妈今天烫了个卷卷头回家,爸爸可能会一时之间认不出来,但计算机依然能辨认这位卷发女士是妈妈,因为五官并没有改变。廖弘源和研究团队在 2001 年发表的论文,探讨此一问题,证明「五官特征」才是计算机辨识人脸的依据,而非五官之外的发型、衣着、首饰等,此知识让业界的脸部辨识系统发展地更精准,也成为这领域近廿年来必读的文献之一。以「识别」与「比对」为核心,计算机视觉延伸出很多用途。廖弘源和研究团队廿多年来开发出了多项创新技术,像是人脸和车牌的辨识系统,现在已是治安保全的重要利器;而数字档案加上「鸡尾酒水印」,则可以防范辛苦的智慧结晶被盗用。
技术分享图片
妙手回春 老相片老电影重获新生
2006 年起,廖弘源接手另一项艰难任务:「数字典藏与数字学习国家型科技计划」。面对庞大的数字典藏档案,首要工作就是快速有效地判读、批注、并撷取多媒体内容。多媒体数据不只图片,还包括影片。影片等于是一秒钟 30 张图片串接在一起,再加上声音,信息量非常庞大,因此分析难度,跟简单的图片不可同日而语。另外一个大难题是,许多珍贵的老胶卷,有的被虫蛀、有的甚至发霉了,眼看就要损毁。还好,廖弘源研究团队成功打出一记「还我漂亮拳」!一连串视讯篡改(video inpainting)的研究,应用在数字修补技术上,成功帮受损的照片或影片「回春」。
先要能「篡改」,才有能力「修复」。
什么是视讯篡改?目的不是要捏造不存在的历史、或是制造虚构的画面,但透过「无中生有」的原理,却可以还原已经被破坏的元素。像下图照片所示,原本斑驳陈旧,但计算机程序可以自动撷取折痕周边的影像信息,用类似「仿真」的方式,产生出原本不存在于照片上的元素,把缺损给填补起来。要修补动态的影片更加困难,廖弘源团队做出了领先世界的创新研究,采用一种 ISOMAP 技术,以非线性的方式降低维度,不但减少了影片数据运算所需的记忆容量,还能用空间的转换,填补上被破坏的片段,让动作看起来自然而连续。许多发霉的老胶卷、经典电影或相片,在这项技术之下,重获新生。感谢部分信息提供:星座女神测运势 http://mitsp.com
技术分享图片
人工智能当道 计算机视觉技术突飞猛进
以上所有研究与技术,在 2012 年遇到了一个重大分水岭,那就是「深度学习(deep learning)」技术的应用。这是一种类神经网络研究,也就是用数学模型去仿真生物中枢神经的结构和功能。早期,这样的研究受限于计算机指令周期,随着计算机效能大幅提升,深度学习的成熟也一日千里。日前喧腾一时的 Google Alpha Go ,就是藉由输入了无数的棋谱让计算机进行深度学习,选出最可能获胜的落子位置,逐一击败各国顶尖职业围棋选手。而在计算机视觉领域的国际盛会──大规模视觉辨识竞赛(Large Scale Visual Recognition Challenge, ILSVRC),主办单位提供 1000 类超过 120 万张的影像,让参赛团队设计的程序去判断类别。 2010 年首次举办时,表现最佳的系统错误率仍高达 28% 。但来到分水岭的 2012 年,透过深度学习技术,错误率大幅降低到 16% 。 2015 年更是一举突破人类极限,错误率达到 3.7%(人眼辨识的极限是 5%),正式宣告,计算机视觉比人类更精准的时代来临。廖弘源的研究团队,也着力于此,开展了两项创新的研究。第一个,是「篮球进攻战术分析」。电视转播的球赛,常听球评或教练,战术分析得头头是道,未来,透过深度学习,可以让计算机直接从比赛的影片中,球员跑动的轨迹,就判读出这一波进攻是打什么战术。另一个研究则是「演唱会片段自动拼贴(mashup)」。一场演唱会,可能有数百个粉丝,从不同角度、不同距离,拍下了不同片段,上传到 YouTube 上。那么,有没有可能,让计算机自动挑出这些片段,然后重新剪辑成高质量的完整演唱会影像呢?这项大工程有许多问题,等着廖弘源研究团队一一克服。他们先用深度学习技术,让计算机分辨影像中的不同对象(歌手、舞台、乐器、观众等),接着再用另一套模式(Error-Weighted Deep Cross-Correlation Model, EW-Deep-CCM)对影片的每一个镜头进行分类,辨认出是远景、中景、近景、或是特写。然后还要比对音讯,整理出影片的正确时间顺序。最后,才依照顺序、分镜逻辑、和情绪铺陈,组合出最佳的影片。
技术分享图片
为了「教」计算机分析这些信息,廖弘源笑称,自己看了无数的篮球影片,从不会打球变成了战术大师;看了几百场演唱会,也让他从音痴化身成音乐总监。受访时,廖弘源神采奕奕地谈着这些研究,言谈中除了自豪,更多的是一种身为「科学家」的使命感,强调无论做什么研究,要当具有开创性的「科学家」,而不只是依循既定方法的「工程师」。人类持续进步,计算机也是。我们过去总认为,计算机是工具,只能帮我们处理机械化的工作。但廖弘源博士两个最新研究之中,都包含着非常复杂的深度学习运算技术,若研发成熟后,人工智能在影片处理上的技巧,将会突飞猛进。或许,「计算机艺术家」诞生的一天,指日可待!
技术分享图片

计算机来当球赛战术分析员 看看它们怎么演算的

标签:computer   超过   才有   计划   探讨   识别   ofo   col   包含   

原文地址:http://blog.51cto.com/13373212/2325451

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!