近日,教育部、國(guó)家語委、中央網(wǎng)信辦共同印發(fā)《關(guān)于加強(qiáng)數(shù)字中文建設(shè)推進(jìn)語言文字信息化發(fā)展的意見》(簡(jiǎn)稱《意見》),對(duì)加快推進(jìn)以信息化促進(jìn)語言文字事業(yè)高質(zhì)量發(fā)展,以數(shù)字化賦能語言文字更好服務(wù)現(xiàn)代化建設(shè)等作出了全面部署。
當(dāng)敦煌藏經(jīng)洞的千年文書在數(shù)字世界中蘇醒,甲骨文的刻痕以數(shù)據(jù)躍動(dòng)永駐云端……數(shù)字中文,正以代碼為筆、算法為墨,在虛實(shí)交織中聯(lián)結(jié)過去與未來。
數(shù)智賦能語言文字高質(zhì)量發(fā)展
語言文字“日學(xué)而不察、日用而不覺”,廣泛存在于社會(huì)生產(chǎn)各個(gè)方面。
如今,中國(guó)已建成世界最大的規(guī)模語言資源庫和中國(guó)語言資源知識(shí)圖譜,集成120多種語言和方言資源。今年,全國(guó)語言文字使用情況調(diào)查將首次實(shí)施,打造集數(shù)據(jù)采集、傳輸、存儲(chǔ)、加工一體的集成化調(diào)查平臺(tái),為深化教育綜合改革和綜合國(guó)力分析提供大數(shù)據(jù)支撐。
為加快推進(jìn)語言文字信息化,《意見》提出,將數(shù)字中文建設(shè)作為服務(wù)數(shù)字中國(guó)建設(shè)的重要任務(wù)和全面推進(jìn)語言文字信息化發(fā)展的突出重點(diǎn),著力推進(jìn)中文數(shù)字化與數(shù)據(jù)中文化,完善新型中文服務(wù)體系構(gòu)建與語言文字治理體系。
教育部語言文字信息管理司司長(zhǎng)劉培俊介紹,中國(guó)已發(fā)布100多項(xiàng)國(guó)家通用語言文字和民族語言文字信息化規(guī)范標(biāo)準(zhǔn),為自然語言處理技術(shù)在人工智能、數(shù)字產(chǎn)品和信息產(chǎn)業(yè)領(lǐng)域的應(yīng)用創(chuàng)新奠定規(guī)范基礎(chǔ)。
語言文字智慧化學(xué)習(xí)的廣泛開展,有力服務(wù)了教育改革創(chuàng)新。比如,高水平開展普通話水平測(cè)試,全面實(shí)現(xiàn)從人工到智能的普通話測(cè)試方式轉(zhuǎn)變,制發(fā)電子證書9000多萬份。在廣東,已建成全國(guó)首個(gè)普通話水平測(cè)試智慧考場(chǎng),考場(chǎng)首創(chuàng)“隨到隨考”測(cè)試模式,大幅提升了普通話測(cè)試效率。
語言文明智能化傳播聯(lián)通世界,也有力服務(wù)了國(guó)際交流互鑒。通過數(shù)字賦能,書寫在古籍里的文字實(shí)現(xiàn)“活化”,建成中華思想文化術(shù)語數(shù)據(jù)庫,面向國(guó)際傳播1200多條反映中華民族話語體系中最核心最本質(zhì)的思想文化術(shù)語,并與40多個(gè)國(guó)家和地區(qū)開展多語種數(shù)字版權(quán)合作。
“中國(guó)已建成集成化、智能化、國(guó)際化的全球中文學(xué)習(xí)平臺(tái),用戶超1600萬人,覆蓋190多個(gè)國(guó)家和地區(qū),深度合作建立聯(lián)盟,中文學(xué)習(xí)聯(lián)盟云服務(wù)平臺(tái)提供3萬門在線課程,與中外1600多家機(jī)構(gòu)合作,推動(dòng)實(shí)現(xiàn)中文人人、時(shí)時(shí)、處處可學(xué)可用、易學(xué)易用?!眲⑴嗫≌f。
建設(shè)新型國(guó)家語料庫
今年,教育部啟動(dòng)布局了新型國(guó)家語料庫的建設(shè)工作?!兑庖姟访鞔_,到2027年,初步建成國(guó)家關(guān)鍵語料庫和國(guó)家戰(zhàn)略語言資源信息庫。
新型國(guó)家語料庫為什么如此重要?又將在語言文字信息化工作中發(fā)揮何種作用?
“當(dāng)前以深度求索(DeepSeek)等為代表的人工智能技術(shù)創(chuàng)新不斷取得突破性進(jìn)展,在這個(gè)大背景下,國(guó)家提出這樣一個(gè)戰(zhàn)略部署,建設(shè)新型國(guó)家語料庫,凸顯了其重要性、必要性和緊要性。”教育部語言文字應(yīng)用管理司副司長(zhǎng)王暉如是說。
現(xiàn)階段,語言教育教學(xué)和研究領(lǐng)域存在多個(gè)語料庫,但很多語料庫還處于單一文本模式和領(lǐng)域應(yīng)用階段。這些語料庫在建設(shè)的理念、技術(shù)和方法、規(guī)模,以及數(shù)據(jù)多樣性、時(shí)效性尤其是與人工智能相結(jié)合的大規(guī)模應(yīng)用方面尚存在不足,難以滿足多元化、動(dòng)態(tài)化尤其是智能化的語言數(shù)據(jù)需求。
找準(zhǔn)這一難點(diǎn),王暉介紹,建設(shè)新型國(guó)家語料庫立足人工智能時(shí)代大背景,突破傳統(tǒng)語料庫單一文本模式和領(lǐng)域應(yīng)用壁壘,以大模型訓(xùn)練及性能評(píng)測(cè)、智能計(jì)算為核心,以新質(zhì)態(tài)、多模態(tài)、多語言、大規(guī)模、全域性為突出特性,為通用領(lǐng)域和細(xì)分領(lǐng)域多場(chǎng)景應(yīng)用及創(chuàng)新發(fā)展提供規(guī)范、可信、高質(zhì)量的語言文化語料資源。
“主要包括兩方面:一是規(guī)范引領(lǐng),主要是加強(qiáng)制度的供給,研制語料庫建設(shè)規(guī)范,突出價(jià)值導(dǎo)向、應(yīng)用導(dǎo)向、創(chuàng)新導(dǎo)向,統(tǒng)籌質(zhì)量和安全,為語料庫建設(shè)提供基礎(chǔ)原則和方法指引。二是示范引導(dǎo),成熟先上,開發(fā)建設(shè)‘中華文脈新型語料庫’‘中華大閱讀體系語料庫’,以這兩個(gè)示范庫建設(shè)整體打造出標(biāo)桿,‘中華文脈新型語料庫’也可以簡(jiǎn)單理解瞄準(zhǔn)的是智慧教師,‘中華大閱讀體系語料庫’瞄準(zhǔn)的是智慧學(xué)伴?!蓖鯐熣f。
數(shù)字中文推動(dòng)產(chǎn)業(yè)升級(jí)
20世紀(jì)80年代,北京大學(xué)王選團(tuán)隊(duì)發(fā)明激光照排技術(shù),并結(jié)合漢字編碼標(biāo)準(zhǔn),突破了中文數(shù)字化的空間限制,讓承載中華文化的中文在全球互聯(lián)網(wǎng)空間獲得新生。那是一場(chǎng)從“鉛與火”到“光與電”的變革,而如今,大語言模型技術(shù)對(duì)大規(guī)模高質(zhì)量語料提出前所未有的需求,賦予了數(shù)據(jù)中文化新的歷史內(nèi)涵和使命任務(wù)。
歷史階段不同,但機(jī)遇和挑戰(zhàn)相似。
北京大學(xué)王選計(jì)算機(jī)研究所所長(zhǎng)湯幟認(rèn)為,當(dāng)前,中文信息處理技術(shù)的發(fā)展從以往解決漢字輸入輸出的基礎(chǔ)性問題,進(jìn)階到當(dāng)先釋放語言文字?jǐn)?shù)據(jù)要素價(jià)值的全方位突破。
《意見》提出,實(shí)施數(shù)字中文推動(dòng)產(chǎn)業(yè)升級(jí)行動(dòng)。支持語言文字信息技術(shù)新產(chǎn)品、新職業(yè)和新業(yè)態(tài)發(fā)展,鼓勵(lì)傳統(tǒng)語言產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型升級(jí),培育基于數(shù)字中文的新型語言產(chǎn)業(yè)。推動(dòng)語言資源、語言翻譯、智能機(jī)器人、中文內(nèi)容服務(wù)等軟硬件產(chǎn)品研發(fā)應(yīng)用,支持圍繞語音、語料、語言應(yīng)用生態(tài)形成產(chǎn)業(yè)聚集,鼓勵(lì)創(chuàng)建語言產(chǎn)業(yè)應(yīng)用示范品牌。
“新形勢(shì)下,語言文字將從實(shí)現(xiàn)‘靜態(tài)符號(hào)’向‘動(dòng)態(tài)數(shù)字資產(chǎn)’,從‘信息載體’向‘生產(chǎn)要素’的轉(zhuǎn)型,要重點(diǎn)推動(dòng)語料庫、數(shù)據(jù)標(biāo)注與評(píng)價(jià)等標(biāo)準(zhǔn)的研制,支持文本生成與理解、語言翻譯、情感分析等各種任務(wù)?!睖珟帽硎?,人工智能發(fā)展迅速,語言文字信息處理技術(shù)創(chuàng)新應(yīng)用正經(jīng)歷從“GB2312字符集”到“萬億參數(shù)大語言模型”的范式變革,語言文字未來將實(shí)現(xiàn)與信息技術(shù)的深度融合,形成“技術(shù)突破—場(chǎng)景落地—生態(tài)繁榮”的良性循環(huán)。(記者孫亞慧)
本文鏈接:http://m.020gz.com.cn/news-3-842-0.html從甲骨文到智能云 以數(shù)智之筆繪中文發(fā)展新卷
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕