技术

如何使用人工智能搜索历史报纸图像

如何使用人工智能搜索历史报纸图像

如何使用人工智能搜索历史报纸图像

通过TeachThought员工

教师和学生(或任何其他公众人士,就此而言)现在可以使用人工智能在线探索超过150万张历史报纸图片。

LC实验室最新的机器学习经验,报纸导航器允许用户搜索1789-1963年美国报纸的视觉内容。用户首先输入一个关键字,返回选定的照片。然后用户可以选择照片进行搜索,这样就可以发现以前搜索引擎无法发现的相关图片。

几十年来,美国各地的合作伙伴通过图书馆合作将报纸数字化记载了美国网站,一个美国历史报纸的数据库。报纸的文本可以通过字符识别技术进行搜索,但用户要寻找特定的图像,就必须浏览个别的问题。通过住宅革新者本杰明·李(Benjamin Lee)的创造力和机器学习的进步,报纸导航(Newspaper Navigator)现在让用户通过视觉相似性搜索报纸图像。

另请参阅帮助学生对新闻进行批判性思考的问题

为了创建“报纸导航员”,李训练计算机算法对1,600万份美国报纸的编年史页面进行分类,以寻找照片、插图、地图、漫画、漫画、标题和广告。Lee开创性项目的想法始于2017年创新者王彤(Tong Wang)的图书馆众包实验,该实验名为“Beyond Words”,邀请公众帮助识别一战时期报纸上的漫画、插图、照片和广告。用户可以在页面上的可视内容周围绘制方框,抄写标题或查看其他用户的抄写。

“当我第一次遇到《Beyond Words》时,我被志愿者识别的成千上万的照片、插图、漫画和地图所吸引。我开始怀疑,这种识别出来的视觉内容是否就是打开美国编年史中1600万页视觉内容宝库的关键,”李说。为了找到答案,他申请了图书馆的驻馆创新者项目。

虽然图像搜索技术对科技公司来说并不新鲜,但报纸导航员将文化遗产与计算机科学结合在一起。用户会看到如何训练算法在数秒内扫描数百万条数据的实时演示。项目中使用的所有代码都是开源的,并置于公共领域,以便无限制地重用。可以访问数据集代码在这里

“我写作编辑在美国早期的历史,报纸导航将是一个宝贵的工具绘制的视觉文化出版社,”吉姆凯西说,非裔美国人研究的助理教授宾夕法尼亚州立大学是报纸导航测试组的一部分。“它为我们提供了大量关于编辑(幕后)工作的线索,以打造历史初稿的外观和感觉。”本·李(Ben Lee)在LC实验室的工作是一个一流的例子,说明了计算机如何帮助我们以全新的、意想不到的方式理解我们的文化遗产。我预计,报纸导航平台将打开许多新的研究领域,因为它允许我们提出新的问题。”

图书馆与国家人文基金会(National Endowment for The Humanities)长期合作,创立了国家数字报纸项目(National Digital Newspaper Program),制作了《美国编年史》(chronicles America)。

美国国家人文基金会(National Endowment for the Humanities)的莫莉•欧哈根•哈代(Molly O’hagan Hardy)表示:“《报纸导航员》为我们提供了一个了解美国历史的全新视角。”“纸质报纸上的图像和文字相互作用,为过去和现在的读者构建意义,而如果我们的搜索只依赖于书面文本,我们就会错过一半的意义。”

哈迪说,“报纸导航员”将允许更多的人接触到大量的收藏,并能从历史报纸中发现新的东西。

“《报纸导航员》启发我的是,只有通过几十年的集体愿景和创新,它才有可能实现,”国会图书馆(Library of Congress)数字战略主管凯特·扎瓦德(Kate Zwaard)说。本的创造性工作建立在其他开源软件项目的基础上,包括美国各地图书馆和档案馆扫描的美国编年记录的开放数据,以及Beyond Words用户的共同贡献。它让我们看到分享信息和技术的指数效应。”

通过实验、研究和合作,LC实验室致力于实现图书馆的愿景:“所有美国人都连接到国会图书馆”,从而实现图书馆的数字战略。LC实验室是国会图书馆驻馆创新项目的所在地;培养了机器学习和数据收集方面的实验;并孵化了图书馆广受欢迎的民间转录项目。