国精产品999国精产品蜜臀,开心五月激情中文在线,久久免费看少妇喷水高潮,午夜高清拍精品福利


    <i id="izbqq"><video id="izbqq"><thead id="izbqq"></thead></video></i>
      <b id="izbqq"><legend id="izbqq"></legend></b>
    1. <b id="izbqq"></b>
      OpenAI公開網(wǎng)頁爬蟲工具:資源枯竭壓力下,人工智能產(chǎn)業(yè)的數(shù)據(jù)版權困局
      2023-08-11 15:49:20 來源:21世紀經(jīng)濟報道 編輯:

      南方財經(jīng)全媒體記者 吳立洋 上海報道

      網(wǎng)頁爬蟲,長期存在于互聯(lián)網(wǎng)產(chǎn)業(yè)中的灰色地帶,作為一種網(wǎng)絡信息采集工具,爬蟲軟件既可以幫助使用者便捷地大范圍獲取網(wǎng)頁數(shù)據(jù),也常常因涉嫌侵犯平臺方數(shù)據(jù)資產(chǎn)與用戶個人隱私而遭到質(zhì)疑。

      近日,OpenAI公司新發(fā)布的網(wǎng)絡爬蟲工具GPTBot則將這一的數(shù)據(jù)獲取渠道再次推上風口浪尖,據(jù)其發(fā)布的信息顯示,GPTBot將被用于抓取網(wǎng)頁數(shù)據(jù),以訓練GPT-4或GPT-5,提升其能力與準確性。


      (資料圖片僅供參考)

      而OpenAI這一舉動再次引發(fā)外界關于人工智能訓練“數(shù)據(jù)荒”的猜測,此前,多位業(yè)界人士與學術機構警告稱高質(zhì)量的人工智能訓練文本將在幾年內(nèi)消耗殆盡——若非需求迫切,本就在聚光燈下的OpenAI似乎并不需要公開這一本就飽受爭議的數(shù)據(jù)工具。

      而業(yè)界同樣對OpenAI的進一步動作高度關注,如果該舉動并未引起平臺與監(jiān)管的激烈反彈,是否意味著其他AI公司同樣可以依葫畫瓢應用爬蟲獲取訓練數(shù)據(jù)?在Reddit已率先宣布對第三方API接口收費后,AI產(chǎn)業(yè)與內(nèi)容平臺又將走向更為廣泛的對立抑或合作?

      “數(shù)據(jù)荒”會到來嗎

      作為人工智能發(fā)展的三大基本要素(算法、算力、數(shù)據(jù))之一,訓練用數(shù)據(jù)的重要性隨著AI產(chǎn)業(yè)的高速發(fā)展被進一步凸顯,具備高質(zhì)量、大規(guī)模、豐富性的訓練數(shù)據(jù)正被快速消耗。

      2022年10月,Epoch AI Research團隊發(fā)布的論文指出,當前語言數(shù)據(jù)集數(shù)量正以50%的速度增長,而原始數(shù)據(jù)的增長速度則為7%,如果數(shù)據(jù)使用效率不能得到大幅度提升或有新的數(shù)據(jù)源出現(xiàn),用于語言模型訓練的數(shù)據(jù)可能將于2030年至2050年之間耗盡,其中高質(zhì)量語言數(shù)據(jù)預計于2023至2027年耗盡。

      而當前開拓和豐富數(shù)據(jù)庫的各項努力依然未取得顯著進展,此前業(yè)界曾寄希望于使用一個大模型為另一個大模型生辰訓練用數(shù)據(jù),但Ilia Shumailov等學者的研究則發(fā)現(xiàn),在訓練中使用模型生成的內(nèi)容將導致進行新訓練的模型出現(xiàn)不可逆的缺陷,即“遞歸的詛咒”,人類生成的文本內(nèi)容特別是人類與人工智能的交互數(shù)據(jù)在大模型訓練中依然必要。

      “書籍、期刊論文作為人類正式出版物,其數(shù)據(jù)信息已經(jīng)做了很好的質(zhì)量控制,但這部分數(shù)據(jù)對大模型來說基本已經(jīng)消耗完了,因此到網(wǎng)頁等公開渠道獲取數(shù)據(jù)成為主要數(shù)據(jù)來源?!毕愀劭萍即髮W(廣州)協(xié)理副校長熊輝教授在接受南方財經(jīng)全媒體記者采訪時指出,相較于谷歌、微軟等擁有自身網(wǎng)絡平臺與長期數(shù)據(jù)積累的互聯(lián)網(wǎng)巨頭,隨著書籍等公共文本數(shù)據(jù)存量見底,各互聯(lián)網(wǎng)平臺建立藩籬反對爬取自身平臺數(shù)據(jù)或深層數(shù)據(jù),OpenAI等單純以AI研發(fā)為主要業(yè)務的訓練數(shù)據(jù)枯竭可能將比上述Epoch AI Research的預測來得更早。

      “基于當前大模型企業(yè)的數(shù)據(jù)訓練和數(shù)據(jù)消化能力,在窮盡其本身能力所能獲取的人類生產(chǎn)的數(shù)據(jù)后,可能到2025年這些企業(yè)就將面臨無人類生成數(shù)據(jù)可用的問題。”熊輝表示。

      而這或許也是OpenAI急于將網(wǎng)頁爬蟲公開化的原因。其官方發(fā)布的論文顯示,早在GPT-3.0訓練所使用的753GB數(shù)據(jù)中,除21GB書籍數(shù)據(jù)與101GB期刊數(shù)據(jù),其余數(shù)據(jù)來源中11.4GB的維基百科數(shù)據(jù)、50GB的Reddit(海外社交平臺)連接數(shù)據(jù)與570GB的Common Crawl(免費網(wǎng)頁數(shù)據(jù)庫,主要內(nèi)容來源于網(wǎng)頁爬蟲)都與網(wǎng)頁相關,而書籍與期刊的數(shù)據(jù)庫存與增長有限,未來網(wǎng)頁數(shù)據(jù)在大模型訓練數(shù)據(jù)集中所占比重或?qū)⑦M一步提升。

      但網(wǎng)頁數(shù)據(jù)存在的問題也非常明顯,作為相對公開的數(shù)據(jù)來源,雖然其在可獲得性與數(shù)量方面較為理想,但網(wǎng)頁本身的內(nèi)容質(zhì)量卻良莠不齊,且隨著人工智能在C端的大規(guī)模應用,越來越多本就是AI生成的文本、圖片、視頻也更加容易導致“遞歸的詛咒?!?/p>

      熊輝指出,大模型使用AI生成的數(shù)據(jù)而可能產(chǎn)生的崩潰或偏見,本質(zhì)上來源于其訓練中的自我增強循環(huán),即模型訓練發(fā)生了樣本偏移或訓練分布偏移,陷入到一種錯誤或有限的思維定勢中,形成局部的信息繭房現(xiàn)象。在人工智能訓練數(shù)據(jù)來源方面,數(shù)據(jù)隱私和數(shù)據(jù)層面的缺陷導致的偏見與倫理問題,也是當前產(chǎn)業(yè)面臨的主要問題。

      他進一步表示,要避免因數(shù)據(jù)問題而導致的模型崩潰或偏見,通常最普遍的做法時引入多元的訓練數(shù)據(jù),即便是同一類型的數(shù)據(jù),不同的數(shù)據(jù)來源也將一定程度上避免數(shù)據(jù)使用陷入自我增強循環(huán),同時輔助以對抗生成等技術來判斷數(shù)據(jù)質(zhì)量。

      爬蟲爭議

      但作為一種大規(guī)模的網(wǎng)頁信息爬取工具,爬蟲在互聯(lián)網(wǎng)產(chǎn)業(yè)中的使用往往伴隨著巨大爭議,網(wǎng)站所有者認為其攫取了自身的平臺價值,在網(wǎng)站上發(fā)布內(nèi)容的用戶則面臨版權與個人隱私權益被侵害的風險。

      在美國最為知名的爬蟲軟件案件之一發(fā)生在微軟旗下職業(yè)社交平臺LinkedIn與數(shù)據(jù)分心公司HiQ之間,后者通過爬取前者數(shù)據(jù)并進行處理后將分析結(jié)果出售給相關企業(yè)獲利,雙方關于第三方是否有權爬取網(wǎng)站信息展開長達五年的訴訟拉鋸。最終,該案以法院裁定HiQ違反LinkedIn用戶協(xié)議,賠償50萬美元并禁止其未經(jīng)同意自動化訪問復制數(shù)據(jù)告終。

      今年4月,作為OpenAI ChatGPT、谷歌Bard等多個公司大語言模型的重要數(shù)據(jù)來源,美國社交媒體平臺Reddit宣布將向訪問其應用程序編程接口的公司收費,不再免費為科技巨頭提供免費的數(shù)據(jù)內(nèi)容。隨后,Twitter(現(xiàn)名X)CEO馬斯克亦公開指責微軟非法使用Twitter數(shù)據(jù)訓練AI模型,并聲稱將就此起訴微軟。

      為應對可能的合規(guī)爭議,OpenAI在發(fā)布GPTBot時也為網(wǎng)站所有者提供了屏蔽爬蟲的方法——只要在網(wǎng)站的robots.txt(爬蟲協(xié)議)中添加對應代碼,即可禁止或允許GPTBot訪問爬取部分網(wǎng)站內(nèi)容。

      但這種把球踢給網(wǎng)站所有者的做法也并不能完全避免合規(guī)風險。一個最為突出的問題是,網(wǎng)站只是網(wǎng)絡信息的展示平臺,網(wǎng)站所有者并不天然具有其他網(wǎng)民發(fā)布在網(wǎng)站上信息內(nèi)容的所有權,即便爬蟲方取得網(wǎng)站所有者同意,其爬取網(wǎng)站信息的行為依然可能觸犯內(nèi)容發(fā)布者的版權權益。

      王新銳表示,相關信息的安全程度將取決于OpenAI是否將對相關信息采取有效的安全技術保障措施,如加密等,但這也并不能完全排除過濾后數(shù)據(jù)爬取仍可能獲取一定個人可識別信息的可能性。

      近年來,各國也在不斷加強與細化人工智能訓練數(shù)據(jù)的合規(guī)要求。例如我國最新發(fā)布的《生成式人工智能服務管理暫行辦法》中也明確提出“生成式人工智能服務提供者應依法開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動,包括使用具有合法來源的數(shù)據(jù)和基礎模型;涉及知識產(chǎn)權的,不得侵害他人依法享有的知識產(chǎn)權”等要求。

      除版權問題外,個人隱私同樣是網(wǎng)頁爬蟲在獲取數(shù)據(jù)時難以避免的敏感問題,雖然OpenAI承諾GPTBot爬取的網(wǎng)頁將被過濾篩選以“去除已知包含個人信息的來源”,以試圖從網(wǎng)站類型與源頭控制對個人可識別信息的收集,但在具體實踐中技術的有效程度仍有待檢驗。

      王新銳表示,相關信息的安全程度將取決于OpenAI是否將對相關信息采取有效的安全技術保障措施,如加密等,但這也并不能完全排除過濾后爬蟲仍可能獲取一定個人可識別信息的可能性。

      應對數(shù)據(jù)困局

      正如前文所言,作為近年乘AI熱潮興起而嶄露頭角的新興公司,數(shù)據(jù)積累將成為OpenAI在未來產(chǎn)業(yè)競爭中重要的短板,而在進一步獲取數(shù)據(jù)的過程中,來源與流程合規(guī)以及愈加嚴格的監(jiān)管也將成為其不得不面臨的兩難。

      在這樣的背景下,效仿其他的互聯(lián)網(wǎng)平臺的合規(guī)舉措,在法規(guī)與行業(yè)框架的模糊地帶盡可能拓展數(shù)據(jù)來源,成為包括OpenAI在內(nèi)大多數(shù)人工智能開發(fā)者的選擇。

      例如,提供給網(wǎng)站所有者爬蟲屏蔽方式的舉措,也是承襲自其他互聯(lián)網(wǎng)公司的既有做法。在谷歌官網(wǎng),同樣對其使用的一系列爬蟲程序和用戶代理字符串也均進行了公示說明,明確網(wǎng)站所有者可以通過將Googlebot, Googlebot Image, Googlebot News等爬蟲程序添加到站點robots. txt中來禁止其訪問網(wǎng)站。

      但正如此前OpenAI已陷入藝術家與作家就版權問題對其發(fā)起的訴訟,相同的做法無論在美國或是其他國家,都面臨著不容忽視的合規(guī)問題。

      王新銳表示,相較而言,我國的法律法規(guī)顯然對數(shù)據(jù)爬取采取了更嚴格的監(jiān)管路徑。在我國數(shù)據(jù)爬取受到多部法律法規(guī)的監(jiān)管,一旦超過合法收集、利用的限度,數(shù)據(jù)爬取將存在侵犯個人信息權益、侵犯知識產(chǎn)權、不正當競爭以及危害計算機信息系統(tǒng)類的違法甚至犯罪風險,需承擔相應民事、行政乃至刑事責任。

      而隨著數(shù)據(jù)資源枯竭的危機一步步逼近,方興未艾的人工智能產(chǎn)業(yè)在加足馬力發(fā)展的同時,又該如何應對模型“養(yǎng)料”供應不足這一現(xiàn)實問題?

      熊輝指出,在產(chǎn)業(yè)發(fā)展初期,各大公司肯定會窮盡一切可能的方法獲取其能夠接觸的所有數(shù)據(jù),早期的數(shù)據(jù)獲取方式在市場驅(qū)動下必然是粗獷式的;而隨著數(shù)據(jù)資源逐漸耗盡,下一步企業(yè)的數(shù)據(jù)利用也會在管理驅(qū)動下更為精細化數(shù)據(jù)質(zhì)量控制,例如做更為細致的數(shù)據(jù)標注與清洗;在此之后,如果想進一步挖掘數(shù)據(jù)價值,則有賴于進一步創(chuàng)新,其中包括數(shù)據(jù)來源與數(shù)據(jù)利用方式的創(chuàng)新,例如通過拆解流程、劃分步驟的方式,豐富數(shù)據(jù)內(nèi)容的維度。

      “打個比方,對于一年級還未接觸復雜乘除計算的小朋友,51÷3的數(shù)學問題比較復雜,但是將其拆解為(30+21)÷3后,就可以將其分為30÷3與21÷3兩個九九乘法表可以解決的簡單問題,與純粹由AI生成的數(shù)據(jù)不同,這一基于人類生成數(shù)據(jù)拆解所產(chǎn)生的步驟數(shù)據(jù),在AI訓練中也是有價值的?!毙茌x表示,通過人工或AI輔助,數(shù)據(jù)資源的進一步開發(fā)與挖掘?qū)⑹蔷徑鈹?shù)據(jù)枯竭問題的主要途徑。

      近日,繼日本畫師、好萊塢從業(yè)者等群體后,多家海外媒體機構也加入呼吁保護生成式人工智能訓練數(shù)據(jù)版權的行列中。在法新社、歐洲新聞圖片社等媒體簽署的一封公開信中,其督促全球立法者考慮制定法規(guī),增強人工智能訓練數(shù)據(jù)來源透明度,并在獲取數(shù)據(jù)前征求權利人同意。

      隨著AI產(chǎn)業(yè)的進一步發(fā)展及各行業(yè)和群體對數(shù)據(jù)價值與權利意識的覺醒,如何構建數(shù)據(jù)生產(chǎn)方、持有方與數(shù)據(jù)使用方之間的權利義務關系,成為從監(jiān)管到每一個互聯(lián)網(wǎng)參與者都需要面對的現(xiàn)實問題。

      關鍵詞:

      相關閱讀
      分享到:
      版權和免責申明

      凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的稿件,均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶獨家版權所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶",并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的電頭。