剑桥,质量。(美联社)——互联网上所说的一切都只是人性教育的开始。科技公司现在正在利用一个更古老的知识宝库:图书馆。
哈佛大学将于周四向人工智能研究人员发布近100万本早在15世纪出版的书籍,涉及254种语言。波士顿公共图书馆收藏的大量旧报纸和政府文件也将很快到来。
对于那些正在打官司的科技公司来说,打开有几百年历史的地窖可能是一笔数据财富,因为这些公司的创意作品在未经他们同意的情况下被挖掘出来,用于训练人工智能聊天机器人。
微软副总法律顾问伯顿·戴维斯(Burton Davis)表示:“从公共领域的数据入手是一个审慎的决定,因为与目前仍受版权保护的内容相比,公共领域的数据争议较小。”
戴维斯说,图书馆还拥有“大量有趣的文化、历史和语言数据”,这些数据在过去几十年的在线学习中缺失了。
在微软和ChatGPT制造商OpenAI的“无限制礼物”的支持下,哈佛大学的机构数据计划(Institutional Data Initiative)正在与世界各地的图书馆合作,研究如何让它们的历史馆藏以一种有利于图书馆和它们所服务的社区的方式为人工智能做好准备。
哈佛大学法学院图书馆创新实验室的研究负责人阿里斯塔娜·斯库塔斯说:“我们正试图将当前人工智能的一些权力转移回这些机构。”“图书馆员一直是数据和信息的管理者。”
哈佛大学最新发布的数据集“机构图书1.0”包含了超过3.94亿页的扫描论文。早期的作品之一是15世纪的韩国画家的关于种植花卉和树木的作品。馆藏最集中的是19世纪的作品,涉及文学、哲学、法律和农业等主题,所有这些作品都经过几代图书管理员的精心保存和整理。
对于试图提高系统准确性和可靠性的人工智能开发人员来说,这将是一个福音。
“人工智能训练中使用的许多数据并非来自原始来源,”数据倡议的执行董事格雷格·莱珀特(Greg Leppert)说,他也是哈佛大学伯克曼·克莱因互联网与社会中心(Berkman Klein Center for Internet & Society)的首席技术专家。他说,这些藏书“可以追溯到实际收藏这些书籍的机构扫描的实物副本”。
在ChatGPT引发商业人工智能狂热之前,大多数人工智能研究人员并没有过多考虑他们从维基百科、社交媒体、有时甚至是盗版书库中提取的文本段落的来源。计算机科学家称之为符号的数据单位,每个符号可以代表一个单词的一部分。
哈佛大学新的人工智能训练集估计有2420亿个代币,这个数字对人类来说很难理解,但它仍然只是最先进的人工智能系统中输入的一小部分。例如,Facebook母公司Meta表示,其最新版本的人工智能大型语言模型经过了从文本、图像和视频中提取的30多万亿个代币的训练。
此外,Meta还在与喜剧演员莎拉•西尔弗曼(Sarah Silverman)和其他出版作家的诉讼作斗争,他们指控该公司从盗版作品的“影子图书馆”窃取他们的作品。
现在,有一些保留意见,真正的图书馆站起来了。
OpenAI今年向一些研究机构捐赠了5000万美元,其中包括牛津大学拥有400年历史的博德利图书馆(Bodleian Library),该图书馆正在对稀有文本进行数字化,并利用人工智能帮助转录。
波士顿公共图书馆是美国最大的图书馆之一,其数字和在线服务主管杰西卡·查普尔(Jessica Chapel)说,当该公司第一次与波士顿公共图书馆接触时,该图书馆明确表示,它数字化的任何信息都将面向所有人。
“OpenAI对大量的训练数据很感兴趣。我们对大量的数字对象感兴趣。所以这只是一种情况,事情是一致的,”查普尔说。
数字化是昂贵的。例如,波士顿图书馆扫描和整理数十份新英格兰地区的法语报纸是一项艰苦的工作,这些报纸在19世纪末和20世纪初被魁北克的加拿大移民社区广泛阅读。既然这些文本可以作为训练数据使用,它就可以为图书管理员想要做的项目提供资金。
查普尔说:“我们一直很清楚,‘嘿,我们是一家公共图书馆。“我们的藏品是供公众使用的,作为这个项目的一部分,我们数字化的任何东西都将公之于众。”
早在2006年,另一家科技巨头b谷歌就已经开始将哈佛大学的藏书数字化。b谷歌的一个有争议的项目是创建一个包含2000多万册图书的可搜索在线图书馆。
谷歌花了数年时间从作者到它的在线图书库,其中包括许多较新的和有版权的作品。2016年,美国最高法院维持了下级法院驳回版权侵权指控的裁决,最终解决了这一问题。
现在,谷歌第一次与哈佛大学合作,从谷歌图书中检索公共领域的书籍,并为向人工智能开发者发布这些书籍扫清了道路。美国的版权保护,对录音的保护时间更长。
所有这些对下一代人工智能工具有多大用处还有待观察,因为这些数据将于周四在hug Face平台上共享,该平台上有数据集和开源人工智能模型,任何人都可以下载。
与典型的人工智能数据源相比,藏书在语言上更加多样化。尽管欧洲语言仍占主导地位,尤其是德语、法语、意大利语、西班牙语和拉丁语,但英文书的数量还不到一半。
莱珀特说,一本沉浸在19世纪思想中的藏书,对于科技行业打造能够像人类一样进行规划和推理的人工智能代理的努力来说,也可能“非常关键”。
“在大学里,你有很多关于什么是理性的教育,”Leppert说。“你有很多关于如何运行流程和如何运行分析的科学信息。”
与此同时,也有大量过时的数据,从被揭穿的科学和医学理论到种族主义叙事。
哈佛大学图书馆创新实验室(Library Innovation Lab)协调员克里斯蒂·穆克(Kristi Mukk)说:“当你处理如此庞大的数据集时,会遇到一些关于有害内容和语言的棘手问题。”穆克说,该计划试图提供指导,以减轻使用数据的风险,“帮助他们做出明智的决定,负责任地使用人工智能。”
————
美联社和OpenAI允许OpenAI访问美联社的部分文本档案。
转载请注明出处: 百战复古180
本文的链接地址: http://4g.bzfg180.cn/post-2086.html
本文最后发布于2025年06月13日19:48
,已经过了0天没有更新,若内容或图片失效,请留言反馈
-
马来西亚部长:一马公司案前高盛银行家刑期“太短
...
6天前
-
尽管遭遇阻力,蒙特利尔仍在推进严格的新短期租赁规定
蒙特利尔正在推进一项新规定,禁止每年9个月的短租,希望缓解住房紧张,并在与未经授权的房源的长期斗争中给予打击。今年3月,市议会通过了一项新的章程,规定只有在旅游旺季(6月10日至9月10日),人们才能将自己的主要住宅出租31天或更短的时间。他们还必须从该市获得300美元的许可证,并满足之前在该省注册的要求。由商业企业经营的全职爱彼迎房源在城市的部分地区仍然是...
6天前
-
政府禁止临时机械游乐设施
拉合尔:听文章旁遮普省政府禁止在宰牲节期间临时安装机械游乐设施。旁遮普内政部发言人表示,该禁令适用于假期期间临时设置的机械游乐设施。在全省各地的游乐园中永久安装...
6天前
-
检获冒牌冷饮
拉合尔:旁遮普食品管理局(PFA)发起了一项打击掺假的行动,以确保开斋节期间食品和饮料的安全。在总干事AsimJavaid的监督下,这次行动查获和销毁了大量假冒冷饮和违禁食品,并对涉案人员进行了刑事立案。行动共检获180公升假冷饮及大量生产假冷饮所使用的有害原料。检获物品包括250公斤人造甜味剂、超过3,900瓶现成出售的冒牌冷饮、4,000只空瓶、60公...
6天前
-
土耳其西南部发生6.2级强烈地震,7人受伤
周二凌晨,土耳其西南部发生6.2级强烈地震,造成至少7人受伤,并引发广泛恐慌。据记录,震源深度为75.1公里,整个地区都有震感,居民们因担心余震而纷纷撤离建筑物。最初报道的震中位于土耳其西南部,但一些外国媒体认为震中可能更靠近希腊岛屿地区,读数显示震源深度为68公里。虽然没有死亡报告,但地震造成了各种伤害。紧急服务部门迅速作出反应,部署了救援队,并检查了建筑...
6天前
-
伊朗证实在沙特阿拉伯与神职人员举行了会晤
德黑兰:听文章据当地媒体报道,伊朗星期三表示,已经与在沙特阿拉伯朝圣期间被拘留的一名神职人员举行了领事会晤。据伊朗ISNA通讯社报道,伊朗知名神职人员和宗教人物...
6天前
-
美国及其盟国指责朝鲜和俄罗斯在军事交易中公然违反联合国制裁
联合国(美联社)——美国及其10个盟国周四表示,俄罗斯和朝鲜之间的军事合作公然违反了联合国的制裁,并帮助莫斯科增加了对乌克兰城市的导弹袭击。这是自2024年3月联合国安理会专家小组继续监督对朝制裁后,联合监督对朝制裁以来的首次报告。自2010年以来,该机构一直在发布平壤违反制裁的报告。这份29页的报告是由美国、澳大利亚、加拿大、法国、德国、意大利、日本、荷兰...
6天前
-
KCCI敦促总理发放23亿卢比的电力补贴
卡拉奇:听文章卡拉奇工商会(KCCI)主席穆罕默德·贾韦德·比尔瓦尼(MuhammadJawedBilwani)敦促总理谢赫巴兹·谢里夫(ShehbazS...
6天前
-
特朗普助理专员在俾路支省提格拉纳巴德附近被绑架
据当地消息人士称,武装分子周三上午在提格拉纳巴德附近绑架了特朗普助理专员哈尼夫·努尔扎伊,当时他正与家人一起前往奎达。目击者报告说,6至8名武装人员拦住了他的公务车,用枪指着他,将他带走,然后驾车逃跑。他的妻子、司机和官方枪手留在了现场,没有受伤。这一事件引起了安全部队的迅速反应,他们在该地区展开了大规模的搜索行动。在ZubaidaJalal路和附近的路线...
6天前
-
政府将加强根除脊髓灰质炎的努力
伊斯兰堡:联邦卫生部长穆斯塔法·卡迈勒星期二重申,政府承诺加强消灭小儿麻痹症的努力,以确保在不久的将来巴基斯坦无小儿麻痹症。部长正在主持一个关于根除小儿麻痹症的审查会议。会议期间,对最近全国脊灰疫苗接种运动进行了全面审查。会议获悉,4500多万儿童成功接种了脊髓灰质炎疫苗滴剂。国家和省级协调员分享了正在进行的消灭脊髓灰质炎工作的详细最新情况,强调了进展和障碍...
6天前