-
數據標注總規模達17282TB 高質量數據集需加快建設
2025/4/6 15:01:46 來源:人民郵電報 【字體:大 中 小】【收藏本頁】【打印】【關閉】
核心提示:7個數據標注基地的數據標注總規模達到17282TB,已形成醫療、工業、教育等行業的高質量數據集335個……國家數據局最新發布的數據顯示,我國數據標注產業發展取得階段性成果。7個數據標注基地的數據標注總規模達到17282TB,已形成醫療、工業、教育等行業的高質量數據集335個……國家數據局最新發布的數據顯示,我國數據標注產業發展取得階段性成果。
數據標注產業蓬勃發展
數據標注產業是對數據進行篩選、清洗、分類、注釋、標記和質量檢驗等加工處理的新興產業。人工智能發展離不開高質量數據集,而高質量數據集建設離不開數據標注工作。加快培育和發展數據標注產業,推進數據要素市場化配置改革,對促進數據開發利用、賦能經濟社會發展、著力培育數據標注新業態、布局數字科技新賽道、構建產業國際競爭新優勢具有重要意義。
根據國家數據局最新發布的數據,目前我國已建成7個數據標注基地,分別位于四川成都、遼寧沈陽、安徽合肥、湖南長沙、海南海口、河北保定和山西大同,數據標注總規模達到17282TB,相當于中國國家圖書館數字資源總量的6倍左右。目前已形成醫療、工業、教育等行業的高質量數據集335個,賦能121個國產人工智能大模型研發,引進和培育標注企業223家,標注從業人員達5.8萬人,帶動數據標注行業相關產值超過83億元。
數據標注是提升人工智能算法、模型核心能力的關鍵環節。工信部信息通信經濟專家委員會委員盤和林在接受《人民郵電》報記者采訪時表示,各地在數據標注規模上實現了顯著增長,這顯示數據標注產業在各地的快速擴展和蓬勃發展,中國數據標注產業的規模效應正在逐步形成,競爭力正在不斷提高,可以預見,未來中國的數據標注產業在海外也是有競爭力的。
“人工智能落地最大的障礙是應用,而數據標注產業向垂直領域延伸,則帶動人工智能產業向垂直領域融合,讓人工智能應用和傳統產業領域更好融合。”盤和林表示,高質量數據集將逐漸形成,特別是在醫療、工業、教育等多個關鍵行業領域,這些特色化數據標注的出現,也意味著各地數據標注產業通過多元化、垂直領域開發的方式來錯開競爭,而不是單純堆量,這也有利于人工智能產業多點齊發,最終有利于人工智能產業生態的形成。
推動數據標注產業智能化發展
數據標注產業作為數字經濟領域的新業態,是布局數字科技新賽道、構建產業競爭新優勢的關鍵。根據國家發展改革委等部門2024年末發布的《關于促進數據標注產業高質量發展的實施意見》,到2027年,數據標注產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均復合增長率超過20%,培育一批具有影響力的科技型數據標注企業,打造一批產學研用聯動的創新載體。
3月18日-20日,全國數據標注基地先行先試現場會在四川成都舉行,會議要求,加快推進高質量數據集建設,推動工業、金融、醫療、交通、教育等領域的高質量數據集建設,為人工智能高水平發展夯實數據底座。同時,會議提出,因地制宜培育數據標注產業。各地要立足自身優勢和資源稟賦,找準發展定位,探索特色發展路徑。通過差異化定位和特色化發展,形成優勢互補、協同發展的產業格局。
加快建設高質量的數據集,對于推動人工智能深入應用,發揮人工智能在提升行業效率、改善服務質量方面的巨大潛力具有重要意義。在醫療領域,通過收集和分析大量患者的醫療數據,人工智能大模型可以為個性化治療提供建議;在金融領域,高質量數據集可以用于風險評估、欺詐檢測、智能投顧;在工業領域,高質量數據集可以支持智能制造、預測性維護、質量控制等應用。
3月24日,國家數據局局長劉烈宏在中國發展高層論壇2025年年會上表示,國家數據局將充分調動社會各方力量,積極推動高質量數據集建設,持續增加數據供給,推動“人工智能+”行動賦能千行百業。“'人工智能+'行動到哪里,高質量數據集的建設和推廣就要到哪里。”劉烈宏說,將強化公共數據資源登記管理,規范公共數據資源授權運營實施,建立授權運營價格形成機制,積極引導做好高質量數據集建設工作。
“從當地已經形成的產業和數據格局出發,找到具有優勢數據資源的領域,有針對性地開發這些數據,繼而由這些數據帶動相關產業實現'人工智能+'。”盤和林表示,對于擁有豐富醫療資源和數據的地區,可以重點發展醫療領域的數據標注產業,專注于醫療影像、病歷文本等數據的標注;對于工業基礎雄厚、制造業發達的地區,可以重點發展工業領域的數據標注產業,專注于工業設備狀態監測、生產線優化等數據的標注,為工業人工智能的研發提供有力支撐。
高質量的數據標注是訓練高性能人工智能模型的基礎,只有準確、全面地標注數據,才能訓練出可靠、可用的人工智能大模型。數據標注產業也需要緊密配合人工智能技術的研發和應用需求,提供定制化的數據標注服務,為人工智能技術的創新和應用提供有力支持。
“數據標注產業會朝著更專業化、規模化、智能化的方向發展。”盤和林表示,一方面,隨著人工智能技術的不斷進步和應用場景的不斷拓展,對數據標注的需求將會越來越大,對數據標注的質量和效率也會提出更高的要求。另一方面,人工智能技術也將對數據標注產業產生影響,很多數據標注可能不再是由人來標注,而是由算法標注,不僅如此,數據本身可能就是由人工智能生成的,這又會給數據標注產業帶來顛覆性的影響。
轉自:人民郵電報
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯系我們修改或刪除,郵箱:cidr@chinaidr.com。- 上一篇:春游鄉村好去處“上新”
- 下一篇:家電行業營收增長9.9%