10月21日,中國智慧交通管理聯盟第五次年會-交通管理大數據技術應用論壇在線上舉行,公安部交通管理科學研究所五部副主任黃淑兵就《低價值密度下公安交管大數據應用實踐》進行分享,本文為演講速記,未經本人審核。
黃淑兵:大家好,今天我給大家匯報的主題是低價值密度下公安交管大數據的應用實踐,大家看到題目可能會有一個疑問,什么樣的交管數據價值密度比較低。今天分享的交管大數據價值,是指在大數據業務應用中可以發揮的作用。
大數據的5V特征
有說是四維特征,有說是五維特征,實際上大同小異了。大數據的第一個特征,數據量非常龐大?那么大到什么樣的程度才算大呢?一般來說是要達到Pb級量級才能認為是大數據。從嚴格意義上來說,機動車駕駛員靜態數據還不能算是大數據,不能說是嚴格意義上的大數據,今天主要匯報的內容是公安交管集成指揮平臺,通過路面前端卡口設備采集到機動車通行軌跡數據,這個數據量非常龐大。目前我們匯聚的數據量已經達到了萬億級別,每天的增量大概是12.5億左右,毫無疑問,這是一個龐大的數據量。
大數據的第二個特征是價值特征,就是說價值非常龐大,是針對于總體價值來說的。還有一種說法說是大數據的價值密度實際比較低,數據量非常龐大,但單條數據價值相對比較低的。一個說大,一個說低,實際上并不矛盾,一個是從總體出發,一個是從單條數據可以發揮的作用而言,大家關注的點不一樣。現在,大數據發展應用到一定階段以后,又開始考慮大數據到底能夠發揮多大的作用?數據價值到底能到一個什么樣的程度?
交管大數據的價值密度低體現在哪里
有很多因素。
首先從數據質量的角度出發,交管大數據是指通過道路上各種交管設備傳感器采集到的數據,數據質量并不高。根據《道路車輛智能監測記錄系統通用技術條件》標準提出的車牌識別準確率要求,白天識別準確率不能低于95%,夜間識別準確率不能低于90%。一般情況下,產品檢測時是按照理想的光線和跟車環境來做檢測,成像的角度數,圖片的清晰度,包括測試場景都比較單一,測試的時候產品能達到這兩個指標,問題不大。
但實際上卡口是安裝在路面上,識別就有些問題。比如像首漢字的識別,很多設備的首漢字識別錯誤的現象還是比較嚴重,比如像“湘”很容易被識別成“浙”和“冀”,比較容易混淆。包括一些非均衡的號牌,經常會被誤識別,甚至有些車的車身廣告數字和條紋,都會被誤識別成車牌。還有一些容易混淆的字母或數字,比如像D和Q很容易會被識別成0,P容易被識別成F等。基于目前的數據情況,其實卡口設備的識別準確率在實際環境中是比較低的,識別準確率低,也就意味著采集的數據跟實際情況不相符合。
前一段時間,我們選取了條件比較好的高速公路路段上功能相對單一的、拍攝單個車道的卡口所采集到的、能識別車牌的圖片進行分析,發現大車的車牌識別準確率目前只有80%,小車的識別準確率是87%。表面上看起來距離行業標準比較接近了,但這只是已經抓拍和識別后的車牌分析,還有大量未被識別、無號牌的抓拍圖片,也還不包括未被卡口抓拍到的車輛。也就是說,目前卡口的車牌抓拍識別率實際上不足70%。曾經我們拿過卡口抓拍到的車牌數據,跟交通運輸部重點營運車輛聯網聯控系統平臺的GPS車輛軌跡數據做了一個碰撞分析,但兩邊數據能重合的,大概也就百分之五六十左右。也就是說,盡管我們現在擁有了上萬億條的卡口數據,但只有70%不到的數據是準確的,還有1/3左右的數據不可識別或者識別錯誤,這會帶來什么影響?
舉一個簡單的例子,比如這個模型是一個我們用來分析從事非法營運車車輛的模型,模型比較理想,也能夠發揮一些作用。
模型的原理比較簡單,頻繁往返于機場、客運車站等場所的車輛,比如面包車、小客車等不具備營運資格的車輛,就可以被預警為疑似非法營運車輛。在理想的數據情況下,只要是從事非法營運車輛的嫌疑車輛,基本都能被發現。但在實際應用中出現了一些問題。比如真正從事非法營運車輛的車輛號牌根本就沒有被識別到或者識別錯誤,系統無法識別也就無法預警,就會出現漏報。還有將具備資質的營運車輛識別成其他車輛的號牌,系統分析就會造成誤報。不管是哪種情形,這兩種情況都會對實際應用造成較大影響。
第二個價值密度低的表現是覆蓋面不均衡不完整。
現在全國所有卡口都要求接入到公安部交通管理集成指揮平臺里,實際上還有大量的卡口還沒有接進,因此就導致數據覆蓋不全。另外,道路上的卡口設備沒有達到路段100%覆蓋。
數據覆蓋不全,就可能導致分析結果的偏差。比如說分析某高速公路的車流量什么時候最大,什么時候最小,什么時候哪些路段車流量最大。若是路段中間卡口設備空缺,不管怎么分析,都會出現錯誤。
根據《2020年加強重要點位交通監控設備聯網接入和運維管理工作方案》要求年底前,國家高速公路服務區、收費站卡口聯網率達到60%以上。但到目前為止,高速公路服務區的卡口聯網率只有43%,收費站的卡口聯網率更低,只有21%。當然這里有很多的因素,設備不是交管部門建和用,采用交通運輸部的設備可能通訊協議和數據格式,和交管部門可能會有差異,這些設備就沒有被接進來。有些服務區,可能根本就沒安裝卡口,這樣就做不到全覆蓋。
如果做不到全覆蓋,對大數據分析有什么影響?可以看一下比較典型的專項大數據案例。很多時候我們拿大數據和傳統的民警經驗來做比較,比如以往要組織一些專項行動,更多靠一些老民警的經驗來實現,有了大數據以后,就可以依靠數據來實現輔助決策。
舉個例子。我們通過卡口識別車牌,通過車牌信息在車駕管數據中了解到車輛基本信息,包括車輛類型,年限,荷載人數或者噸數等,這是單條數據。積累了一定量的數據以后,就能夠分析出來在哪些道路、哪些時段上,到了報廢期限仍上路的大貨車比較多,從而有助于決策,是否開展一次針對于大貨車逾期未報廢的專項整治行動?
專項行動有沒有取得效果,也是根據大數據的分析和運算來復盤,如果逾期沒報廢的車輛確實減少了,專項行動就可以結束了,而不像以前沒有數據支撐,不知道要開展幾次專項行動執法,才有效果,只能固定排班,浪費警力。但如果某一條路沒有一個卡口接進來,數據分析就不完整,有可能這條路上逾期未報廢卻上路通行的車輛最多。
所以如果數據不全面,就很可能做出誤導性的決策。雖然模型很好,但實際上因為數據沒有做到全覆蓋,數據分析結果就出現問題。為什么會出現這樣的情況?我們也簡單做了分析,從技術層面來說,現在公安交通集成指揮平臺接入的卡口設備,大概有5.1萬套是三年前備案,此外,即便是三年前備案接入,設備實際的建設應用可能更早,早期設備的技術條件還沒有目前這么先進,當時用的識別技術、算法跟目前的技術完全不是一回事。
這些卡口的成像條件也沒有現在這么好,因而可能造成識別錯誤。比如這張抓拍圖片,車身上噴涂的順豐快遞專用服務電話號碼比車牌本身要清晰,正好也是5個數字,卡口就容易將這個電話號碼識別成號牌。比如這種農用車,因為樣本數據少,更多的被識別成小型汽車。比如這兩年開始規模上路的新能源車輛,不少卡口在安裝時,還沒有新能源號牌,也就不具備識別的能力,很多前端設備又沒有及時的升級,沒有更新識別算法,因此這些新能源號牌通過此類卡口后,基本上車牌數字會少一位。
還有很多摩托車和電動自行車卡口基本識別不了,甚至有些摩托車和非機動車抓拍照片壓根就沒有傳到公安交通集成指揮平臺里面去,這樣就會造成很多數據的錯誤和缺失。
從管理角度來看,還有很多卡口位置的地圖標注存在問題。因為很多模型會根據兩個卡口設備間距離,從而推算出車輛通行的速度。但這些卡口位置的地圖標注都是人工標注的,人工標注就可能存在誤差。比如有相當一部分設備,根本沒有標注在路上,甚至標到了河流、湖泊、山脈上。還有一些比較難以發現,比如城區一個卡口被標注到城際公路上,也就是位置錯標。這樣的數據,如果拿過來做數據分析,輸入業務模型,就會存在問題,也就不能得到一個有效的價值信息。
還有,對前端設備的運維,可能也沒做到位。比如被樹葉被遮擋,強烈反光,補光不足,以及設備安裝角度出現偏差,就沒辦法較好的采集到車牌數據并識別。
價值密度低的影響
通過前面的分析,可以看出目前公安交管大數據主要還是通過車輛軌跡數據實現各種目標。數據質量不高會帶來什么影響?目前的算法、技術走到了前面,即便數據存在問題,但業務模型仍可以產生一些效果。技術解決了能不能的問題,后面能不能用好,就依賴于基礎的數據質量。也就是說,現在解決了從0到1,下面就是如何從1走到100。
要實現這個目標,要解決兩個問題。
有兩個很大的問題需要去解決。
第一個鴻溝,技術和業務的鴻溝,技術是為業務服務的,技術能不能用于業務,中間有一個很大的跨度需要去通過。舉一個簡單的例子,我們的技術指標可以達到很高,通過各種算法的一個訓練優化,使準確率達到99%。比如說套牌車的識別,套牌車是怎么識別的呢?就是通過卡口電警等設備識別出車牌后,再將車輛特征與車駕管的登記數據進行核對,不符合的極可能是套牌車。假設一個城市里套牌車的比例是萬分之五,10萬輛車里可能有5輛套牌車,但識別準確率是99%,那可能1萬輛車里面有100輛被識別出疑似套牌,但真正的套牌車實際上只有5輛。所以,即便準確率達到了99%,但對于應用人員來說,能發現套牌車的準確率只有5%。目前技術手段雖然已經很成熟,但要真正的投入業務應用,還有很多功課要做。
第二個鴻溝就是理論和實際的鴻溝。理論上模型很完美,但實際應用時,又會發現各種各樣的問題。簡單舉兩個例子,比如車輛限尾號通行,怎樣科學合理的制定限行政策和措施,要不要限行?什么時段限行?應該限哪些車?目前多是組織去北京上海深圳杭州廣州等地考察一下,但實際上不同城市的交通流車輛類型和通行規律,是不同的,借鑒作用有限。
若是通過數據來,比如說通過這個城市的卡口采集了很多數據,通過數據分析發現車流量在什么時段最大,由哪些類型的車輛組成,本地車和外牌車各有多少,哪些是長期行駛,哪些是短期通行,哪些車輛通勤距離很長,哪些很短?通過數據的預演推算,就可以模擬制定出一套比較合理的限行政策。
之前我們經常會拿這個來舉例,但發現很少有地方拿這個數據來作為決策依據。理論上是可行的,但目前的數據質量,包括準確率、覆蓋面都還達不到實際應用的要求。如果數據質量不高,反過來還會產生負面的影響。
再舉個例子。現在有很多地方在提,根據卡口采集的車輛通行軌跡特征對城市出行做一個畫像。包括車輛基本信息,每天什么時間出行,通行距離多少,通行強度是多少……但多停在理論階段,因為能夠滿足出行畫像要求的車輛,可能只有10%左右。因為很多車采集到的軌跡數據很少,如果只有幾條或者十幾條軌跡數量,就達不到畫像的要求。即便數據量達到了一定的要求,但因為數據質量比較低,對該車輛的出行畫像準確性,也沒有辦法驗證。
可以簡單的總結一下,目前大數據處理分析技術已經非常成熟,但是交管大數據的應用還遠遠沒有跟上。技術的研究發展和推進,主要由一些企業和高校在研究,技術上沒有問題。但在應用的過程中,就涉及到真正的數據應用。
一般一些模型訓練的數據量比較少,很多的數據還是模擬的。有些地方為了避免模擬數據帶來的問題,會挑一些城市的真實數據輸入,但即便是真實的數據,也不能代表全國的城市。
所以說,在理想的數據環境下,模型已經很成熟,沒有問題,但投入到應用后,你就發現不同城市的情況是不一樣的。前一段時間我們也在調研,發現很多地方都上了很多大數據應用模型,也確實收集了很多的數據,但這些模型真正應用上,還是很少。
沒有常態化的應用,主要還是因為兩個鴻溝,一個是技術和業務的的鴻溝,一個是理論和實際的鴻溝。
低密度價值下大數據應用常用方法
今天匯報的主要內容,就是如何在現有情況下,來更好的實現交管大數據應用。
先回顧一下標準的大數據處理流程,一般通過幾個步驟,先是采集數據,采集完后是數據清洗,清洗完后再對數據做分析和挖掘,最后對數據分析挖掘的結果做應用。
但根據我們長時間的經驗發現,數據清洗不是一個預制的動作,而是一個從前到后由始至終都需要的操作,就是說在數據采集過程中需要清洗數據,數據分析挖掘時也要清洗數據,甚至最后的應用過程中,還是需要清洗數據。目前數據質量就擺在面前,整個應用過程都離不開數據的清洗和數據的處理。
數據清洗和處理有哪些方法?簡單列了幾個,和大家分享一下。
第一種方法是二次加工,2014年我們就開始做。通過二次識別以后,識別的結果再跟卡口所采集數據做一個比較,如果結果是一致的,就可認為數據是可用的。
如果對比對結果不滿,再來一個二次識別,因為二次識別的算法可以有多種不同的算法,采用不同的算法交叉驗證,驗證完以后,將可信度更高的數據拉入后續應用。二次加工方法也不是一個單獨的應用,可能會跟其他的數據加工方法結合在一起,也不是說在每個環節都適合。二次識別需要對圖片做特征的提取,算力消耗比較大,時間也相對較長。所以這個過程一般不會放在第一環節,第一環節經過初步的加工初篩以后,得到一個數據量比較小的數據集以后,再采取二次加工的方式。
二次識別除對機動車號牌進行識別以外,還可以對駕駛人做二次識別。很多模型里面會對同一路程中,駕駛員是否同一個人進行識別,非機動車駕駛員是否戴了頭盔等進行識別,并不要很精確。當然有些緝查需要知曉駕駛員身份,包括身份證號碼、駕駛證信息等。
怎么判斷一個車底有沒有更換駕駛員,主要應用場景是大客車和重載貨車,一是是否符合準駕資格,二是是否有疲勞駕駛的嫌疑。通過大數據分析得出嫌疑車輛,如何確定到底有沒有換駕駛員?只要把主駕駛和副駕駛兩人的特征來提取出來,再交叉驗證一下,兩人有沒有換座位,主駕駛位上是不是同一個人就可以了,并不需要知道駕駛員是誰,甚至都不需要人臉信息,只要提取大概特征,比如對衣服樣式和顏色進行提取然后分析。
第二個方法是叫條件過濾。
這可能是在大數據處理中最常用的一個方法,例子也可多舉幾個。第一個是城市套牌車分析,原理也比較簡單,同一個號牌的兩輛車,不大可能再一個很短的時間內,出現在兩個不同的地方。如果出現,某一輛車可能套牌嫌疑車。原理比較簡單。很早以前就提出來了,但當時數據的處理能力還不夠,還是比較難實現,但現在有了大數據技術以后,很容易就能實現。
但在應用的過程當中也發現了問題,比如原始數據中2100個卡口,7天的抓拍圖像數據總量匯集達到了1.66個億車輛數據。
對這些數據輸入模型然后運算,結果是有46.9萬對的嫌疑車同時出現了兩地。用常識想也知道,不可能有46.9萬套牌車,為什么會出現這樣的數據結果?主要還是因為數據質量。比如如何界定異地,首先會用到兩個卡口之間的位置。如果本來兩個卡口距離很遠,但被人為的標注到比較近,抓取車牌后也就可能被認為是套牌嫌疑車。此外就是號牌識別錯誤。比如一個是Q一個是0,但都被識別成0,也會被認為是同一個號牌。怎么辦?
所以要用條件過濾,比如剛提到的同一個卡口,本來是距離很遠,誤標注到一起以后就被認為是嫌疑套牌車。怎么過濾呢?就把符合這樣條件的卡口所采集到的數據,全去掉。通過篩選以后就剩下2萬對嫌疑車,基本比較接近實際情況,但還是有號牌識別錯誤的情況。
號牌識別錯誤怎么解決?前面也說了,可以通過二次加工對吧?采用另一種算法二次識別一下,這樣的數據才認為是嫌疑套牌車的數據。通過二次識別后,剩下2000多對車有套牌嫌疑。
第二個例子是黑校車識別。原理也不復雜,就是篩選出那些在上學、放學時段,經常在學校附近出現但平時又不出現的面包車。通過大數據運算以后,確實能夠篩選出符合這樣特征的車輛。
當然同樣我們也發現有些車輛并不是面包車,只是因為號牌識別錯誤,被錯認為是面包車,這時同樣可以增加圖片二次加工環節,來過濾數據。
此外,黑校車一般會在車廂內塞很多學生,可能存在某幾輛面包車每天給學校去送貨,也會每天在這個時段出現,這時候再加一個前排人臉識別,只要識別出車前排坐了幾個人。通過二次加工以后,就能初步判斷是否有非法營運的嫌疑。除此之外,通過長期跟蹤發現,有一些車輛也會被誤識別,比如一些學校周邊的家庭,有兩個小孩,每天送小孩上學放學,這也要用到一個過濾,比如說一些白名單的集合,在分析的結果中剔除。
還有一些其他的過濾方法,比如像按軌跡次數過濾,軌跡天數過濾等。前面說到對車輛出行進行畫像,首先軌跡的數量要達到一定的數量值。比如可以設定一個閥值,出行軌跡條數一定要超過多少條,一個月內通行天數要超過多少天,符合這樣條件的,才給車輛去做出行畫像,這也是條件過濾。
第三個方法是多元數據的融合。
用一維的數據來分析,也沒有辦法確定分析結果的準確性,也沒有辦法去過濾,但可以通過另外的數據來跟現有的數據做交叉融合,驗證之后來確定結果的準確性。
比如疲勞駕駛的數據分析。此前是通過車輛的定位軌跡數據,連續行駛4個小時以上就認為存在疲勞駕駛的嫌疑,但模型也是比較簡單、理想,在運用的過程當中就發現很多問題,比如有些車輛沒有正常開啟GPS裝置,或者上傳偽造的定位數據,這些車輛即便有疲勞駕駛的嫌疑,也很難發現。還有一些車輛定位設備正常,數據也上傳,發現存在疲勞駕駛的嫌疑,但駕駛人可能會抵賴,說換了人了,但是IC卡忘了換,這個時候也沒有充足的證據證明他有疲勞駕駛嫌疑。還有一些是換了卡,但沒有換駕駛人,還是同一個人開,這樣也很難發現是否疲勞駕駛。
針對這些情況就可以用到多元數據的融合交叉驗證,把定位數據和卡口數據做交叉融合,卡口是能夠拍到貨車前部的照片,這個時間點是哪個駕駛員,如果把這個圖片作為證據給駕駛員,駕駛員很難抵賴。
若是換卡不換人,或者關閉設備,這些沒有被發現的疲勞駕駛人員,也可以通過算法來做簡單的驗證。車輛在兩個卡口之間通行了多長時間,可以算出行駛速度,如果速度是在100以上或者是80以上,基本可以認定在這兩個卡口之間沒有停車休息的,一旦休息了滿20分鐘,行駛速度肯定是達不到80以及100。根據這個原理去累計分析,超過4個小時行駛速度都在80以上,就證明沒有休息過,有疲勞駕駛的嫌疑。再拿卡口數據和GPS定位數據來做一個交叉的驗證。一方面能認定四小時內沒有停車,同時也讀不到GPS數據,但車輛是連續行駛,同時又能知道車內駕駛員沒有更換,通過這些數據的交叉融合,去提高數據的準確性,如果你是用單一的數據,分析結果是不準確的。
第四個方法是人工干預。
目前的大數據分析還沒有達到非常準確、智能的程度,要完全通過算法運算推出來的結果不一定是準確的,所以就需要人工干預,但人工干預也分很多場景,有些是事前人工干預,有些是事后干預,有些是事前事后都需要人工干預,常見的人工干預方法就是人工匹配。
比如要分析一些區間的車輛通行速度,首先得知道哪個是起點,哪個是終點,需要提前人工標注好。比如設定一些參數的閾值,像套牌嫌疑車的分析,區間設置的分析,可以設定一個速度,因為有些卡口的時間不一定準確,算出來的速度可能會有偏差,閥值可以調高一點。
最常用的是人工審核,最終分析的結果還需要人工審核判斷,因為很多交管業務應用都會涉及,如果存在交通違法,就可能會涉及到處罰。如果涉及到處罰的話,就要保證數據是準確的,所以基本上每一個業務模型的最后都會有一道人工審核確認的環節。
總結和展望
前面主要是介紹了低價值密度下交管大數據常用的幾個方法。
簡單總結一下,這些應用主要針對數據應用,在這方面下一步主要的工作是深化數據治理,很多數據的清洗、模型的優化、迭代都屬于數據治理的內容。另一個工作是需要有更多的數據接入進來,比如保險大數據、事故數據等等,進行多維的交叉的驗證。
就數據采集來說,加強源頭管理很重要。前面說的都是基于現狀怎么數據治理,如果加強數據源頭管理,保證第一手采集的數據是準確及時無誤,就能做更好的應用。下一步我們會組織全國交通監控前端設備的升級和運維保障,并計劃組織開展視頻專網公安交通集成指揮平臺的建設,從而加強前端卡口設備的運維管理。通過AI智能運維,自動檢測卡口設備采集的角度是不是準確,數據是不是及時傳輸等。
最后希望通過大家共同的努力,然后能夠把公安交管大數據應用用得更好,謝謝大家。
掃一掃在手機上閱讀本文章