“抬頭是山,低頭是煤。”曾在山西傳統(tǒng)煤礦工作8年, 整天盯在電腦屏幕前監(jiān)測(cè)礦井瓦斯?jié)舛鹊墓窂膩?lái)沒(méi)有想過(guò),有一天自己的工作會(huì)和人工智能有了聯(lián)系。 兩年前,因?yàn)楹⒆觼?lái)省會(huì)城市太原上學(xué),郭梅在附近求職,做起了數(shù)據(jù)標(biāo)注。同樣是盯在電腦屏幕前,現(xiàn)在郭梅每天的工作是給圖片、文本或者聲音進(jìn)行標(biāo)注,再把它們交給機(jī)器訓(xùn)練和學(xué)習(xí)。從一開(kāi)始每天只能標(biāo)注兩三百?gòu)垼浆F(xiàn)在的日均完成1300多張,郭梅按件計(jì)酬的收入逐漸提升,已高于當(dāng)?shù)仄骄杖胨健?/p> 人工智能行業(yè)里有句話:有多少智能,背后就有多少人工。像郭梅一樣,AI數(shù)據(jù)標(biāo)注師成為了隨著人工智能發(fā)展而出現(xiàn)的新興就業(yè)崗位。2020年2月,“人工智能訓(xùn)練師”正式成為新職業(yè)并納入國(guó)家職業(yè)分類目錄。 他們被稱為人工智能背后的人。數(shù)據(jù)采集和標(biāo)注是他們的主要工作,目的就是要教會(huì)AI認(rèn)識(shí)數(shù)據(jù),轉(zhuǎn)化成AI能消化和吸收的“語(yǔ)言”。有了足夠多、足夠好的數(shù)據(jù),AI才能夠?qū)W會(huì)像人類一樣去感知、思考和決策,更好地為人類服務(wù)。 這項(xiàng)工作看起來(lái)簡(jiǎn)單枯燥,但意義非常?!熬拖褚慌_(tái)車(chē)沒(méi)有汽油走不了,數(shù)據(jù)就是人工智能發(fā)展的燃料。有了我們的數(shù)據(jù),機(jī)器(算法)不斷迭代,就能推動(dòng)人工智能往更好的方向發(fā)展?!?從事數(shù)據(jù)標(biāo)注的山西麟諾公司總經(jīng)理李應(yīng)維對(duì)第一財(cái)經(jīng)表示。 “從沒(méi)想過(guò)做人工智能” 20出頭的李宇龍從未親眼見(jiàn)過(guò)自動(dòng)駕駛汽車(chē),但他的工作卻和自動(dòng)駕駛的AI算法息息相關(guān)。 他曾經(jīng)在生產(chǎn)電子類產(chǎn)品的工廠工作,轉(zhuǎn)做AI數(shù)據(jù)標(biāo)注后,老板交給他的第一個(gè)項(xiàng)目就是“車(chē)道線打點(diǎn)”。 簡(jiǎn)單來(lái)說(shuō),就是給無(wú)人駕駛進(jìn)行車(chē)道線標(biāo)注。當(dāng)無(wú)人車(chē)行駛到一段路時(shí),會(huì)自動(dòng)連續(xù)拍攝圖片,李宇龍要做的,就是對(duì)圖片上車(chē)輛所行駛的車(chē)道旁邊兩側(cè)的線進(jìn)行標(biāo)注,識(shí)別虛線還是實(shí)線,匹配所對(duì)應(yīng)的屬性,從而告訴人工智能虛線車(chē)輛可以進(jìn)行變道,實(shí)線不可以進(jìn)行變道。而標(biāo)注的難點(diǎn),在于交匯和分岔。 當(dāng)時(shí)的李宇龍,還不知道數(shù)據(jù)標(biāo)注師到底是什么,更對(duì)人工智能沒(méi)有具體概念,老板只交給他一套規(guī)則,讓他按照規(guī)則在電腦上認(rèn)車(chē)道線。好學(xué)的他在短時(shí)間內(nèi)就掌握了規(guī)則和難點(diǎn),總結(jié)出了標(biāo)注車(chē)道的規(guī)律。 他把自己的工作比作“幼教“,當(dāng)他拿出一個(gè)紅蘋(píng)果給機(jī)器并教會(huì)它識(shí)別,再拿一個(gè)綠蘋(píng)果給它時(shí),因?yàn)轭伾町?,機(jī)器就無(wú)法認(rèn)出了。李宇龍的工作就是不斷地幫助機(jī)器識(shí)別不同的顏色、大小,甚至是被咬了一口的蘋(píng)果或是壞蘋(píng)果,直到隨便拿出一個(gè)蘋(píng)果,它都能認(rèn)出來(lái)。 李宇龍告訴第一財(cái)經(jīng)記者,數(shù)據(jù)標(biāo)注的工作是“按件計(jì)酬”,他的日均收入在300元左右。數(shù)據(jù)顯示,2019年,太原市的城鎮(zhèn)居民全年人均可支配收入36362元。他說(shuō),自己的工資水平在整個(gè)基地標(biāo)注師日均收入中處于中等水平,“據(jù)我了解,有人日均收入甚至能破千。” 對(duì)于自己的工作,李宇龍說(shuō),剛開(kāi)始接觸時(shí),只把它看做一個(gè)重復(fù)性的工作,并沒(méi)有想太多。直到后來(lái)接觸項(xiàng)目多了,涉及的領(lǐng)域包括教育、安防、金融、交通醫(yī)療和電商等,每天都在挑戰(zhàn)學(xué)習(xí)能力,也會(huì)想要更深入了解自己標(biāo)注的內(nèi)容可以應(yīng)用到的行業(yè)。 雖然還沒(méi)有坐過(guò)無(wú)人車(chē),但他說(shuō),現(xiàn)在看到無(wú)人駕駛的時(shí)候,會(huì)想到這里面也包含了自己的標(biāo)注成果。 像李宇龍、郭梅的工作一樣,第一財(cái)經(jīng)記者看到,在每一間數(shù)據(jù)標(biāo)注的辦公室里,都是類似的工作場(chǎng)景:一排排電腦屏幕前,年輕的數(shù)據(jù)標(biāo)注師根據(jù)各自分配的任務(wù),對(duì)文本、圖片、語(yǔ)音和視頻做標(biāo)記、標(biāo)重點(diǎn)、打標(biāo)簽、框?qū)ο蟆⒆鲎⑨尩确绞綄?duì)數(shù)據(jù)集作出標(biāo)注,他們可能在為無(wú)人車(chē)標(biāo)注車(chē)道線、紅綠燈,也可能是在為肺部影像標(biāo)注病毒數(shù)據(jù)。 以人臉為例,目前能實(shí)現(xiàn)對(duì)約150個(gè)特征點(diǎn)的標(biāo)注。疫情期間,采集大量的戴口罩的人臉照片后,數(shù)據(jù)標(biāo)注師對(duì)人臉的眉毛、眼鏡、顴骨等人臉關(guān)鍵點(diǎn)進(jìn)行精準(zhǔn)標(biāo)注,標(biāo)注特征點(diǎn)越多,AI就越能精確識(shí)別出戴口罩場(chǎng)景下的人臉。最終實(shí)現(xiàn)即使不摘口罩,也能實(shí)現(xiàn)精確測(cè)量體溫,或是通過(guò)人臉閘機(jī)。 是不是“AI富士康”? 數(shù)據(jù)標(biāo)注產(chǎn)業(yè)促進(jìn)了不少城鎮(zhèn)和農(nóng)村就業(yè),在河南、河北、貴州等地,還出現(xiàn)了一些特色的“數(shù)據(jù)標(biāo)注村”。 據(jù)IDC統(tǒng)計(jì),全球每年生產(chǎn)的數(shù)據(jù)量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)經(jīng)過(guò)清洗與標(biāo)注才能被喚醒價(jià)值。在我國(guó),每年需要進(jìn)行標(biāo)注的語(yǔ)音數(shù)據(jù)超過(guò)200萬(wàn)小時(shí),圖片則有數(shù)億張,這就產(chǎn)生了源源不斷的清洗與標(biāo)注需求。 李應(yīng)維對(duì)第一財(cái)經(jīng)記者說(shuō), 他預(yù)計(jì)明年企業(yè)的用工將翻一倍,從160多人擴(kuò)展到300人左右。 李應(yīng)維公司所在的百度(山西)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地,已經(jīng)成為中國(guó)人員和產(chǎn)值規(guī)模第一的單體數(shù)據(jù)標(biāo)注基地。AI數(shù)據(jù)標(biāo)注師從業(yè)人員超過(guò)2000人,實(shí)現(xiàn)營(yíng)業(yè)收入超億元,企業(yè)入駐35家。該基地計(jì)劃在未來(lái)5年培養(yǎng)5萬(wàn)名AI數(shù)據(jù)標(biāo)注師,并引入更多AI合作伙伴。 百度(山西)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地負(fù)責(zé)人尉赤告訴記者,人工智能是個(gè)高速發(fā)展的行業(yè),數(shù)據(jù)服務(wù)又與人工智能息息相關(guān)。“我們的線上眾包注冊(cè)用戶有將近2000萬(wàn)人,目前每個(gè)月在線上為我們提供服務(wù)的人將近5萬(wàn)人。如果按照行業(yè)增長(zhǎng)速度來(lái)看,培養(yǎng)5萬(wàn)人還不一定夠?!?/p> 不過(guò),數(shù)據(jù)標(biāo)注師看上去是人工智能領(lǐng)域一個(gè)“入門(mén)”工種:技術(shù)門(mén)檻低,招工人群范圍廣泛。他們通過(guò)每天數(shù)千次的重復(fù)動(dòng)作,和最前沿科技的人工智能產(chǎn)生聯(lián)系。也因此,外界給這個(gè)行業(yè)貼上了“AI富士康”的標(biāo)簽。 數(shù)據(jù)標(biāo)注帶來(lái)了技術(shù)紅利,但如果人工智能發(fā)展到一定程度,甚至有可能夠取代數(shù)據(jù)標(biāo)注師的工作。 艾瑞咨詢?cè)谝环萑斯ぶ悄芟嚓P(guān)報(bào)告指出,隨著算法需求越來(lái)越旺盛,依賴人工標(biāo)注不能滿足市場(chǎng)需求,因此增強(qiáng)數(shù)據(jù)處理平臺(tái)持續(xù)學(xué)習(xí)能力,由機(jī)器持續(xù)學(xué)習(xí)人工標(biāo)注,提升預(yù)標(biāo)注和自動(dòng)標(biāo)注能力對(duì)人工的替代率將成趨勢(shì)。此外,隨著 AI對(duì)數(shù)據(jù)的要求越來(lái)越高,數(shù)據(jù)標(biāo)注行業(yè)也正逐步進(jìn)入精細(xì)化階段。 對(duì)于數(shù)據(jù)標(biāo)注這一職業(yè)的未來(lái),李應(yīng)維對(duì)記者舉例,自己公司一名員工入職后,因?yàn)楸憩F(xiàn)優(yōu)異,不久已被百度公司聘用。而且,數(shù)據(jù)標(biāo)注師也在為人工智能培養(yǎng)和發(fā)現(xiàn)人才。 尉赤則認(rèn)為,目前大家更多地聚焦在數(shù)據(jù)加工這件事,但如果再往前看,更多的是數(shù)據(jù)的優(yōu)化、還有一些相關(guān)的解決方案。數(shù)據(jù)標(biāo)注是一個(gè)很好的入門(mén),進(jìn)來(lái)之后有機(jī)會(huì)更深度參與到產(chǎn)業(yè)鏈協(xié)作當(dāng)中,例如后續(xù)當(dāng)數(shù)據(jù)標(biāo)注越來(lái)越機(jī)器化,人工和自動(dòng)化之間要有機(jī)的協(xié)同,這也對(duì)員工提出了更高的要求。 此外,當(dāng)數(shù)據(jù)標(biāo)注越來(lái)越機(jī)器化,人工智能訓(xùn)練師是一個(gè)轉(zhuǎn)換工種的機(jī)會(huì),標(biāo)注員們現(xiàn)在標(biāo)注數(shù)據(jù),未來(lái)可能向數(shù)據(jù)治理、數(shù)據(jù)解決方案設(shè)計(jì)和項(xiàng)目管理等方向發(fā)展。 例如,現(xiàn)在李宇龍的工作重心已經(jīng)轉(zhuǎn)向培訓(xùn),同時(shí)接觸到更多的項(xiàng)目管理,根據(jù)每個(gè)項(xiàng)目對(duì)應(yīng)的特點(diǎn)判斷與之匹配的能力。 在他看來(lái),自己比很多傳統(tǒng)行業(yè)的人們更早地接觸到未來(lái)的發(fā)展方向和未來(lái)的生活、工作場(chǎng)景,“看到了未來(lái)的發(fā)展需求,也就比別人更早找到更多發(fā)展機(jī)會(huì)?!?/p> |
|