?中國(guó)信通院何寶宏:下一代數(shù)據(jù)治理體系架構(gòu)基本形成
發(fā)布時(shí)間:2024-12-19 11:41:40 | 來源:中國(guó)網(wǎng) | 作者: | 責(zé)任編輯:孫玥12月18-19日,為推動(dòng)打造行業(yè)交流平臺(tái),驅(qū)動(dòng)產(chǎn)業(yè)創(chuàng)新共榮,大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)以“數(shù)據(jù)重塑價(jià)值智能鏈接未來”為主題,在北京召開為期兩天的“2024數(shù)據(jù)資產(chǎn)管理大會(huì)”。在大會(huì)主論壇上,中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏發(fā)表了題為《下一代數(shù)據(jù)治理》的演講。
數(shù)據(jù)治理能力建設(shè)迫在眉睫
據(jù)統(tǒng)計(jì)2023年我國(guó)數(shù)據(jù)生產(chǎn)總量達(dá)到了32.85ZB,同比增長(zhǎng)高達(dá)22.44%,數(shù)據(jù)產(chǎn)業(yè)規(guī)模已達(dá)2萬億元。政策方面,國(guó)家高度重視數(shù)據(jù)產(chǎn)業(yè)發(fā)展,2020年以來陸續(xù)出臺(tái)了10多項(xiàng)政策文件,覆蓋數(shù)據(jù)基礎(chǔ)制度、數(shù)據(jù)整合利用、數(shù)據(jù)基礎(chǔ)設(shè)施與數(shù)據(jù)管理能力建設(shè)。
政策和企業(yè)自身數(shù)字化轉(zhuǎn)型需求推動(dòng)數(shù)據(jù)管理能力不斷提升,數(shù)據(jù)治理需求愈發(fā)旺盛。同時(shí),隨著國(guó)家數(shù)據(jù)局和各級(jí)數(shù)據(jù)管理機(jī)構(gòu)的揭牌運(yùn)行,我國(guó)上下聯(lián)動(dòng)、橫向協(xié)同的數(shù)據(jù)工作體系基本形成,數(shù)據(jù)要素相關(guān)的政策布局思路也日漸明確。
何寶宏表示,“如何確保數(shù)據(jù)供得出、流得動(dòng)、用得好,更好發(fā)揮數(shù)據(jù)要素作用”成為了數(shù)據(jù)要素發(fā)展的核心主線。數(shù)據(jù)的跨主體流轉(zhuǎn)和使用依賴于企業(yè)的數(shù)據(jù)治理能力,跨主體數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全體系的建設(shè)迫在眉睫。
與此同時(shí),以大模型為代表的強(qiáng)人工智能應(yīng)用正在對(duì)社會(huì)各界產(chǎn)生顛覆式的變革,對(duì)科技、金融、醫(yī)療健康等各個(gè)領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。
通用人工智能的發(fā)展,離不開數(shù)據(jù)的支持,大模型使得數(shù)據(jù)與算法的邊界更加模糊,數(shù)據(jù)嵌入到了模型的生成中,數(shù)據(jù)質(zhì)量與安全直接影響模型結(jié)果,面向人工智能開展數(shù)據(jù)治理成為了企業(yè)關(guān)注的新課題。另外,在人工智能技術(shù)的加持下,Text to SQL、ChatBI、智能化數(shù)據(jù)治理等應(yīng)用百花齊放,數(shù)據(jù)治理開始由勞動(dòng)密集型工作向自動(dòng)化、智能化轉(zhuǎn)變。
何寶宏指出,隨著數(shù)據(jù)要素市場(chǎng)的蓬勃發(fā)展和人工智能技術(shù)的快速迭代,企業(yè)數(shù)據(jù)治理面臨管理效能、人員協(xié)同、多模數(shù)據(jù)管理、高質(zhì)量數(shù)據(jù)集建設(shè)等挑戰(zhàn),急需新的方法和技術(shù)來應(yīng)對(duì),下一代數(shù)據(jù)治理體系應(yīng)運(yùn)而生。
下一代數(shù)據(jù)治理體系架構(gòu)基本形成
何寶宏介紹,在產(chǎn)業(yè)各方的協(xié)同下,下一代數(shù)據(jù)治理體系架構(gòu)已經(jīng)已基本形成,總體呈現(xiàn)出治理對(duì)象全域化、研發(fā)模式工程化、治理技術(shù)智能化、數(shù)據(jù)架構(gòu)分布式、數(shù)據(jù)安全縱深化、數(shù)據(jù)管理價(jià)值化六大趨勢(shì)。
趨勢(shì)一:全域數(shù)據(jù)治理。全域的數(shù)據(jù)治理涵蓋了結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。人工智能已經(jīng)從“卷算法”向“卷數(shù)據(jù)”轉(zhuǎn)變,通過對(duì)訓(xùn)練數(shù)據(jù)開展治理,從而形成可信的訓(xùn)練數(shù)據(jù)集是人工智能發(fā)展的必然選擇。通過關(guān)注對(duì)非結(jié)構(gòu)化數(shù)據(jù)的治理、合成數(shù)據(jù)的治理,研究配套的的方法論體系、技術(shù)平臺(tái)以及標(biāo)準(zhǔn)規(guī)范,進(jìn)而形成質(zhì)量高、安全牢、觀點(diǎn)正的可信數(shù)據(jù)集。
中國(guó)信通院依托大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì),發(fā)布業(yè)界首本《面向人工智能的數(shù)據(jù)治理實(shí)踐指南(1.0)》。同時(shí),圍繞非結(jié)構(gòu)化數(shù)據(jù)管理、合成數(shù)據(jù)等方向,TC601還在持續(xù)開展研究和標(biāo)準(zhǔn)化工作,推動(dòng)我國(guó)數(shù)據(jù)治理工作向全域化發(fā)展。
趨勢(shì)二:數(shù)據(jù)研發(fā)模式工程化、敏捷化。數(shù)據(jù)驅(qū)動(dòng)時(shí)代,業(yè)務(wù)需求快速變化,數(shù)據(jù)處理流程紛繁復(fù)雜,企業(yè)必須處理好旺盛數(shù)據(jù)需求與數(shù)據(jù)生產(chǎn)力不足之間的矛盾,革新數(shù)據(jù)開發(fā)流程,加大數(shù)據(jù)供給力度,從而更好地響應(yīng)需求、賦能業(yè)務(wù)發(fā)展。
DataOps是一種新的數(shù)據(jù)開發(fā)模式,通過構(gòu)建高效協(xié)同機(jī)制,建立精細(xì)化數(shù)據(jù)運(yùn)營(yíng)體系,打造規(guī)范化、一體化的數(shù)據(jù)開發(fā)流程,實(shí)現(xiàn)數(shù)據(jù)產(chǎn)品高質(zhì)量與高效率地交付。
依托DataOps標(biāo)準(zhǔn),中國(guó)信通院開展了DataOps能力評(píng)估,已經(jīng)在移動(dòng)、聯(lián)通、農(nóng)行、工行等十多家機(jī)構(gòu)落地,以評(píng)促建,幫助企業(yè)構(gòu)建敏捷、精益地?cái)?shù)據(jù)工程能力。未來,工作組還將結(jié)合各行業(yè)特征開展多個(gè)行業(yè)標(biāo)準(zhǔn)的制定,圍繞全域數(shù)據(jù)工程體系開展理論研究、標(biāo)準(zhǔn)研制工作,為社會(huì)發(fā)布最新的研究成果。
趨勢(shì)三:數(shù)據(jù)治理技術(shù)智能化。據(jù)觀察,企業(yè)中的數(shù)據(jù)治理是勞動(dòng)密集型工作?!爸悄芑瘮?shù)據(jù)治理”旨在借助人工智能技術(shù)手段開展數(shù)據(jù)治理工作,利用智能化技術(shù)在語(yǔ)義理解、邏輯推理、智能生成等方面的優(yōu)勢(shì),幫助企業(yè)優(yōu)化治理流程,提升治理效率及效果。
中國(guó)信通院認(rèn)為,未來“數(shù)據(jù)治理Agent”將是智能化數(shù)據(jù)治理成熟形態(tài)。一是具備靈活的適應(yīng)性,可以通過外部接口靈活響應(yīng)外部監(jiān)管要求。二是以任務(wù)落地為導(dǎo)向,幫助企業(yè)實(shí)現(xiàn)治理動(dòng)作智能化實(shí)施。三是可通過對(duì)企業(yè)知識(shí)庫(kù)的學(xué)習(xí)對(duì)企業(yè)偏好形成認(rèn)知,并通過反饋不斷優(yōu)化治理方案規(guī)劃,幫助企業(yè)智能決策。
趨勢(shì)四:數(shù)據(jù)架構(gòu)分布式化。企業(yè)數(shù)據(jù)架構(gòu)管理以企業(yè)內(nèi)所有數(shù)據(jù)為管理對(duì)象,對(duì)數(shù)據(jù)的靜態(tài)結(jié)構(gòu)和動(dòng)態(tài)特性進(jìn)行管理,對(duì)數(shù)據(jù)的定義、分布、集成、整合等進(jìn)行規(guī)劃、管控和應(yīng)用,確保數(shù)據(jù)與業(yè)務(wù)需求保持一致。
數(shù)據(jù)編織是一種分布式數(shù)據(jù)管理的架構(gòu)理念,支持對(duì)數(shù)據(jù)跨平臺(tái)、跨域的靈活集成。采用邏輯集中、物理分散的管理方式,實(shí)現(xiàn)在正確的時(shí)間,從任意位置,將正確的數(shù)據(jù)與正確的人連接起來的終極目標(biāo)。數(shù)據(jù)編織有以下特點(diǎn):一是適配多源異構(gòu)的數(shù)據(jù)來源;二是具備非常巨大的數(shù)據(jù)存儲(chǔ)容量;三是采用分布式的數(shù)據(jù)管理架構(gòu);四是支持AI協(xié)同的自動(dòng)化能力。
另外,數(shù)據(jù)編織還可以作為企業(yè)數(shù)據(jù)空間的底層技術(shù),實(shí)現(xiàn)多主體數(shù)據(jù)的邏輯統(tǒng)一管理。依托大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì),國(guó)內(nèi)數(shù)據(jù)編織的理論研究、技術(shù)標(biāo)準(zhǔn)制定等工作已經(jīng)陸續(xù)開展。未來還將進(jìn)一步聯(lián)合各界的專家學(xué)者共同完善數(shù)據(jù)編織的理論體系、標(biāo)準(zhǔn)體系以及標(biāo)準(zhǔn)驗(yàn)證工作。
趨勢(shì)五:數(shù)據(jù)安全縱深化。隨著三法兩條例的發(fā)布實(shí)施,我國(guó)數(shù)據(jù)安全治理體系已經(jīng)基本完善,企業(yè)數(shù)據(jù)安全能力建設(shè)從體系建設(shè)向場(chǎng)景化建設(shè)發(fā)展,數(shù)據(jù)分類分級(jí)、數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估等工作正在如火如荼地開展。
另外,人工智能的發(fā)展給數(shù)據(jù)安全帶來了新的機(jī)遇與挑戰(zhàn)。一方面,人工智能技術(shù)的蓬勃發(fā)展,為數(shù)據(jù)安全領(lǐng)域帶來了前所未有的機(jī)遇。另一方面,數(shù)據(jù)作為大模型訓(xùn)練的重要燃料,在模型生成、訓(xùn)練、精調(diào)等過程面臨數(shù)據(jù)竊取、數(shù)據(jù)泄露、數(shù)據(jù)篡改等一系列數(shù)據(jù)安全風(fēng)險(xiǎn)。
趨勢(shì)六:數(shù)據(jù)管理價(jià)值化。在數(shù)據(jù)要素政策逐步完善、數(shù)據(jù)交易市場(chǎng)日趨成熟的背景下,企業(yè)以釋放數(shù)據(jù)價(jià)值為導(dǎo)向開展數(shù)據(jù)資產(chǎn)化路徑探索,量化數(shù)據(jù)資產(chǎn)、賦能業(yè)務(wù)價(jià)值、預(yù)期經(jīng)濟(jì)收益,明確數(shù)據(jù)資源入表流程、成本核算機(jī)制,推動(dòng)數(shù)據(jù)從資源化階段向資產(chǎn)化階段發(fā)展,充分釋放數(shù)據(jù)資產(chǎn)價(jià)值。
2024年是數(shù)據(jù)資源估值和入表的“元年”,中國(guó)信通院和中國(guó)聯(lián)通集團(tuán)合作了“數(shù)據(jù)要素價(jià)值管理與實(shí)踐”研究報(bào)告,從成本投入、內(nèi)部收益、外部收益全面評(píng)估了數(shù)據(jù)價(jià)值,指導(dǎo)企業(yè)進(jìn)一步深化數(shù)據(jù)應(yīng)用、優(yōu)化數(shù)據(jù)管理模式。
數(shù)據(jù)入表方面,截至到今年第三季度,已有50多家企業(yè)入表,累計(jì)入表金額超過15億元,其中三大運(yùn)營(yíng)商入表規(guī)模占比很高,也是央企中率先開展入表披露的企業(yè)。
數(shù)據(jù)交易流通方面,場(chǎng)內(nèi)數(shù)據(jù)交易日趨規(guī)范,場(chǎng)外流通依然活躍。企業(yè)也在構(gòu)建更多對(duì)外能力,比如建行的產(chǎn)融平臺(tái)、中國(guó)電信集團(tuán)的“星?!贝髷?shù)據(jù)品牌都已良好運(yùn)營(yíng),全力向數(shù)據(jù)要素型企業(yè)轉(zhuǎn)型升級(jí)。(張九陽(yáng))