«  你绝对没见过的搜索引擎 http:/...   |   Blog首页   |   中文元搜索引擎(欢迎补充) »

2006/10/27

Google搜索结果中的PDF文档

   近来搜索中,常碰到这样情况:结果中有PDF文档,右键另存为,却发现保存下来的是名为“citation.htm”的网页文件。直接点击结果,也是变为网页。如果想“阅读全无”或者“下载全文”,需要注册。

   开始没留意,后来遇到多次这种情况,发现这种PDF文档都来自维普咨询。维普数据库也是国内常见的学术数据库之一,不过,在中国知网的冲击下,有些没落了。

   你明明标明是PDF文档,但打开后却变成网页,还不能看全文。个人意见,这对用户体验也是伤害。Google应该处理一下。

  Google收录上面情况的PDF文档: site:engine.cqvip.com filetype:pdf   

 PS:Google结果的某些摘要内容,和PDF变为网页后的内容并不一致,有些找不到。我很奇怪,Google是如何抓取的,到底抓取了全文没?

update:URL在论坛的回贴,谢谢解释。

这应该是google scholar的一部分,来源于维普与google合作的结果。其中的步骤和细节见:
http://www.dxy.cn/bbs/post/view?bid=6&id=6788245&sty=3
可见,维普提供给google绝大部分还是摘要,只有少量全文,它并没有把全部全文的权限提供给google,维普自身也不支持全文检索。所以google应该没有抓取文献的全文。搜索结果页面显示的内容可能是某文献在维普数据库中的字段部分内容。

Stone 发表于 2006-10-27 16:27  阅读(2740) 评论( 3) 引用( 0) 搜索引擎观察
所有人可见

  • 收藏文章:
  • save at del.icio.us
  • save at digg
  • save at my yahoo
  • save at blinklist
  • save at furl
  • save at simpy
  • save at blogmarks
  • submit at reddit
  • save at spurl
  • save at shadows
  • save at rawsugar
  • save at bloglines

引用

http://www.uuzone.com/app/trackBack.do?type=blog&trackBackID=141778

相关内容
更多..

回复列表每两分钟自动刷新一次,想立即刷新吗?点击这里

您的浏览器可能不支持Frame, 优友地带需要使用Frame才能显示正常页面!