• <tt id="nnhky"></tt>
    <blockquote id="nnhky"><u id="nnhky"></u></blockquote>

    1. 綏中縣打印機價格論壇

      大數據與行業代碼智能編碼的隱患

      草色沁嵐2020-11-23 11:56:12

      ?

      總說要寫一寫跟統計有關的東西,受到工作所限,一直沒想到合適的內容,本期小草就談一談大數據與行業代碼智能編碼的隱患。

      ?



      關鍵概念

      ?

      行業代碼是統計中用于給基本單位劃分國民經濟行業分類用的代碼,最新一版的標準——國民經濟行業分類(GB/T 47542017)——可以在網上查到?;締挝痪褪菑氖律a經營活動的市場主體,比如企業、機關、個體戶等等。行業代碼的劃分,是根據基本單位所從事的最主要的生產經營活動(主要業務活動)來確定的,比如有一家房地產中介,平時還出租雨傘,賣小零食,那他的主要業務活動就是房地產中介服務,行業代碼就會編為對應的7030。

      ?

      智能編碼,就是根據統計時填報的主要業務活動,來自動編制行業代碼,省去人工翻查行業代碼標準核對應該編制何種代碼的工序。那么,這套軟件根據什么來自動編制呢?就是大數據。收集已經針對填報的主要業務活動編制過行業代碼的報表,利用一定的技術將主要業務活動分割為多個詞組,通過機器學習詞組與代碼之間的匹配關系,就可以在將來新填報報表時,根據填寫的主要業務活動中的詞組,計算出相匹配的行業代碼。比如上個例子,如果填寫房地產中介”“中介房地產”“房地產的中介等等,都會計算出7030。

      ?

      這對于基層統計工作來說,是一項十分便利省事的好東西,但小草認為其中存在著一個巨大的隱患,別著急,先來看一些跟大數據有關的真實案例。

      ?

      Google流感趨勢

      ?

      Google2008年推出了一款基于大數據計算的預測流感的產品,根據匯總的Google搜索數據,近乎實時地對全球流感疫情進行預測。這些搜索的詞匯包括:溫度計、流感癥狀、肌肉疼痛、胸悶等等。系統根據用戶搜索這些關鍵詞,成功地預測了幾次流感。

      ?

      后續的發展想必大家都知道了,投入使用以后,Google的預測越來越不準,即便經過了多次的調整,仍然不可避免的失敗了。

      ?

      有些研究認為,雖然特定關鍵詞的搜索量與特定事件確實存在相關性,但是特定關鍵詞的搜索并不僅僅只受到特定事件的影響,不僅如此,系統的搜索建議反過來也在影響和改變用戶的搜索習慣。舉個簡單的例子,當我發現Google推出了這款能預測流感的強大功能后,我就會很好奇地,單純是好奇地去搜索一下“發燒”,或者我僅僅是大量運動后身體發熱,就去搜索了一下“發熱”,系統會不會聯想到流感呢?

      ?

      購物推薦

      ?

      去年我在淘寶上買了一套沙發布置客廳,之后的很長一段時間內,我的淘寶頁面都在不斷地給我推薦各種沙發商品,他可能都不知道我的客廳只需要一套沙發就夠了吧。不僅如此,甚至在我上百度、新浪等網站的時候,都會出現沙發商品的推薦廣告。想想是不是很愚蠢。經常逛購物網站購物的朋友們,應該也都經歷過吧。


      這也是購物網站利用大數據計算分析,將結果再運用到用戶身上的例子。用戶瀏覽頁面,從而生產了大數據,瀏覽沙發商品的頁面多了以后,系統就會把我的ip或賬戶跟沙發匹配到一起,下次再發現我登錄的時候,就會繼續給我推薦匹配頁面了。

      ?

      艾莎門事件

      ?

      就在前不久,著名的YouTube在少兒動畫的視頻中大量推薦充斥著暴力和色情的“兒童邪典片”,因視頻中經常出現《冰雪奇緣》里的艾莎公主而得名。YouTube 正是采用了類似工作原理的機器學習推薦算法引擎,由于這類邪典片中的主角多是動畫人物,一旦小孩們觀看了幾部正常兒童動畫視頻后,這種邪典片的視頻推薦就會擠滿首頁,進而看的人越來越多,接著視頻登上熱門排行,觀看量像滾雪球似的越來越大。

      ?

      這些視頻在我看來都十分反感厭惡難以忍受,想象一下推薦給孩子們看會導致怎樣的后果。好在現在各大視頻網站都大規模下架了此類視頻。

      ?

      可以說,從大數據收集、分析、機器學習到推薦,似乎都沒出問題,但是這樣的推薦結果,欸……這個例子就是大數據機器學習必須經過人工干預的最好證明。

      ?

      智能編碼

      ?

      現在回過頭來看小草一開始說的行業代碼智能編碼,各位讀者恐怕也已經發現我說的隱患了?;鶎诱{查員不斷地填報著報表,我們甚至沒法保證填報的主要業務活動與行業代碼就是準確匹配的,也就是說大數據的數據源本身就有可能出錯。再加上填寫主要業務活動時,恰當的分詞也很難,恰當的學習就更難了。

      ?

      智能編碼的初衷是代替基層調查員翻查行業代碼標準,這樣一來,基層調查員便不再認真判斷系統推薦的行業代碼是否正確??梢韵胂?,一旦出現了錯誤的推薦,這個錯誤就是一直錯下去,而且越錯越多。

      ?

      實際中,漢語表達的多樣性,嚴重影響了智能編碼系統的判斷,對于目前全國2000多萬基本單位來說,上述提到的錯誤可能是數以萬計的。

      ?

      這樣一來,智能編碼軟件就必須引入人工干預處理流程。以目前已經使用智能編碼的某個統計數據庫為例,人工干預的主要措施是邀請行業代碼編制專家編制正面清單和糾錯:正面清單即哪些匹配關系是一定正確的;糾錯即當調查員發現推薦的代碼有誤時提交糾錯申請,由專家確認是否修改正面清單。

      ?

      顯然,這個數據庫缺少一個負面清單。而更大量的問題是,有很多匹配關系既無法放入正面清單,也無法放入負面清單,比如辦公用品銷售,機器學習無法判斷他的經營活動是文具零售(5241)還是打印機墨盒批發(5177)。在某統計數據庫中,此類問題條目目前已經積累到15000余條,等待專家處理。

      ?

      行業代碼編制專家同樣是有局限性的。倘若基層填報了一個“2類(弱激光)激光診斷儀生產,這要什么樣的專家才能滿足需要呢?在某統計數據庫中,此類問題條目也已經累積了5000余條。

      ?

      尾聲

      ?

      馬上就要全國第四次經濟普查了,根據某統計數據庫的經驗,在進一步規范主要業務活動填寫規則的基礎上,學習庫的詞條可能會達到400~500萬條,有必要專家介入的條目可能會達到8~10萬條。在全國幾百萬普查員都忙不過來的時候,會有一批專家全程負責,專職糾錯嗎?




      Copyright ? 綏中縣打印機價格論壇@2017

      红包猎手