找回密码
 注册账户
查看: 197|回复: 0

谷歌图书团队称全世界约有1.3亿本图书

[复制链接]
业界达人 发表于 2010-8-6 22:17:49 | 显示全部楼层 |阅读模式
<!-- publish_helper name='原始正文' p_id='2' t_id='1' d_id='4516309' f_id='2' --><img alt="谷歌扫描的1879年出版的《绅士杂志》" src="http://i2.sinaimg.cn/IT/2010/0806/201086131137.png" style="border:px solid #000000" title="谷歌扫描的1879年出版的《绅士杂志》" />谷歌扫描的1879年出版的《绅士杂志》<p>  <span style="font-family: KaiTi_GB2312;">导语:谷歌公司谷歌图书(Google Books)团队在其官方博客上发表博文称,其统计了截至2010年8月1号全世界所有图书的数量,一共约1亿2986万4880本。科技博客CrunchGear发表评论文章对谷歌图书计划做了评论,认为该计划实施难度巨大,但影响将会不可估量。以下是评论全文:</span></p><p>  谷歌的目标一直是将地球上所有的数据都电子化、分类、索引到其巨大的服务器里。谷歌图书恐怕是这个巨大的工程中最有野心的布局之一。但是不要忘了,人类将文字和智慧记载入图书里已经有了五、六千年的历史,书的数量可以说不计其数。谷歌图书将使世界上所有的图书都可以在线搜索,影响将是不可估量的。谷歌为了完成这一浩大的工程,使用了当今很多最新的科技手段。</p><p>  谷歌图书团队刚刚在其官方博客发了一篇博客,讲述了他们是如何计算出世界上所有的图书有1亿2986万4880本这个他们认为相对准确的数字的。</p><p>  其实我对他们具体是如何得出这一数字并不感兴趣,但是我很乐意看到他们主动去挑战海量的数据。因为这意味着,在未来我们还有很多东西可以学习,还有很多关于如何处理数据的问题会被提出。</p><p>  举个例子说:谷歌要处理非常多类似于ISBN(国际标准书号)的图书数据,还要与众多大学图书馆、公共图书馆、私人收藏、博物馆等等非常多的机构合作,处理这些机构提供的相似的图书记录,并区分出这些记录的微小差异。设计高效的算法来从这些重叠非常多的图书记录中找到每一本书的最初版本不是一件容易的事,毫无疑问需要频繁的人工干预。谷歌需要使用了类似于算法的程序区分、分类、分析大量的图片。</p><p>  使用OCR(光学字符识别)技术扫描图书并非易事。例如:错误率要控制在多少?对于不同印刷技术的书是否需要不同的扫描仪?是否需要人工整理书页的褶皱?手动翻书的人的手指盖住了部分内容怎么办?如此之类的问题数不胜举。</p><p>  当然,书籍作品本身的规律一定程度上降低了扫描工作的难度。大部分图书作品都有很清晰的开头和结尾,期刊和杂志都是按期发行编号清晰等等。</p><p>  另一个问题是,如何存档存有巨量信息的因特网?现在有人在做这种工作,可是问题是他们如何将每一个网站都以一个标准的模式整体打包?一个名为 Internet Archive的网站就在做整个因特网的存档工作。但是我怀疑这项工作真的那么有意义吗?因为我们现在根本就看不懂两千年前的数据,那两千年以后的人能看懂现在保存的数据吗?</p><p>  让一个商业化的公司把人类所有的信息都电子化是一件耸人听闻的事。当然,我不反对谷歌这么做,而且我认为这是谷歌所做的为数不多的合法、免费贡献给全世界的好产品之一。毫无疑问,谷歌会在这些电子书中卖广告,但是它为了将这一工程商业化所花费的财力人力巨大,它有权利这么做。毕竟在过去,自由获得取信息还只是少数人的特权,而谷歌图书将会彻底改变这一点。(张和)</p>        <p>相关阅读:</p><p>6711《傲视天地》29服今日开启 军团齐争霸</p><p>《细胞向前冲》技惊业内 特色玩法转不停</p><p>《梦幻之城》经典瞬间 永恒回忆</p><p>《明珠三国》 挑战四大BOSS 夺取高级装备</p><p>要玩《傲视天地》火爆新服 领金币征战天下</p>
您需要登录后才可以回帖 登录 | 注册账户

本版积分规则

存档|黑屋|手机|网络实验室 本站服务器由美国合租以及IDCLayer国际数据提供!!!

GMT+8, 2026-6-18 18:26 , Processed in 0.008542 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表