科技
搜索引擎|链接|百度百科
作者:方可成
一
前两天,一位广州的家长在微博上发来私信,他发现:在百度中搜索广州的很多小学和幼儿园的名字,结果中排在首位的一般都是百度百科,而进入百度百科页面之后,点击参考文献中的“广州上学网”,却会进入色情网站。
我测试了一下,的确如此。
通过搜索,我发现至少有这些学校的百度百科参考资料会指向色情网站:广州开发区第二小学、广州市海珠区星云幼儿园、广州市越秀区大沙头中英文幼儿园、沙河小学、北山小学、化龙中心小学、滨江东路第二小学、左边小学、复甦小学、五凤小学、芳华小学、协和小学、广州市海珠区江南西艺星幼儿园、广州市越秀区黄金实验幼儿园、小洲小学、侨乐小学、金影小学、培红小学、天河区龙洞小学、同福西路小学、聚德西路小学、博雅小学、天河区棠下小学、长安东街小学、增滘小学、禾丰小学、长湴小学、天河区骏景米洛英文幼儿园、瑞宝花园小学、黄村小学、广雅实验学校、横沙小学、花都区新华镇九潭小学、从化市从化英才幼儿园、乐贤坊小学、黄埔同仁小学、握山小学、三善小学。
二
为什么会出现这种荒唐的情况?
根据我的分析,原因是:“广州上学网”此前是一个真实的学校信息汇集网站,这些学校的百度百科页面在编写的时候,确实是指向了真正的“广州上学网”。
后来,这个网站关闭了,内容无法再访问。
再后来,“广州上学网”的域名被色情网站运营者买下,设置成了自动跳转色情网站。这样一来,所有原本指向“广州上学网”的链接,现在都会被跳转到色情网站。
所以,百度是躺枪了?都怪色情网站太狡猾,百度对此并无责任?
并非如此。百度百科自称“全球最大的中文百科全书”,是亿万中国人认知世界的渠道,并且在百度搜索结果中获得了极高的展现权重,这就要求它必须采取措施,保证内容质量。
虽然百度百科是人人都可以编辑的,但平台应该对最终呈现的内容负责。实际上,百度自身也对外强调:“参考资料要权威”,要杜绝色情、违法、广告、虚假、灌水、恶意编辑等现象。
杜绝色情违法内容,不仅是编写词条的时候要审核,在词条通过之后也应该时常检查:链接是否失效或被跳转到其他网站。
以百度高超的技术能力(前不久刚刚平稳应对了春晚红包的巨大流量),写一个程序检查百度百科中的失效链接和可疑跳转,是一件再简单不过的事情。
然而遗憾的是,百度并没有做这件事情,而是让色情网站的运营者钻了空子,让部分查询小学和幼儿园信息的家长(乃至学生)被导向了色情网站。
三
过期链接问题是互联网面临的一大挑战,我们可以对比一下维基百科是怎么做的。
为了处理过期链接问题,维基百科特别制定了如何处理过期链接的详细规则。
过去几年中,在互联网档案馆(Internet Archive)的帮助下,维基百科还利用机器人自动检测失效链接,并替换为有效的历史存档链接,抢救了多达900万个失效链接。
这里就不得不提一嘴互联网档案馆这个高能的资料库。它最有名的“馆藏”,就是互联网时光机(Wayback Mahince),通过它,你可以看到很多网站过去的样子,也可以找回现在已经不存在的网站之前的模样。
比如,我在互联网时光机中输入“广州上学网”的网址,就能看到:从2011年下半年开始,就有了这个网站。
点进2013年的一个快照,可以看到当时这个网站长这样:
从2015年开始的快照,就显示这个网站不再正常运转。2018年的快照,抓下来的就是色情网站。
互联网时光机这个神奇工具的社会意义,怎么说都不为过。它保留下了珍贵的档案资料,供我们探索和研究。
正是在时光机的帮助下,维基百科上的几百万失效链接,都被重新指向了正确的历史版本。
为了防止今后再出现链接过期现象,现在,每当用户在维基百科上添加了一个外部的引用链接,互联网时光机就自动会把这个页面爬取下来储存到自己的服务器上,以保证之后一定可以追溯得到。
互联网档案馆的“馆藏”还不止于此,它还收录了巨量的图书、音频、影像、软件、游戏等资料,还开设了专门的“川普数据库”等主题馆藏,收集了和川普有关的电视新闻、演讲、辩论等。如果你喜欢翻阅资料,你一定会在其中找到自己感兴趣的内容,很可能陷入其中无法自拔。
维基百科和互联网档案馆,都能够让你感受到互联网最美好的样子:丰富、优质的信息,悉心的编辑整理,无偿开放的使用,借助技术解决最紧要的问题。
最最重要的是:对信息负责任的态度。
重金投入人工智能的百度,不妨分出一点点资源解决失效链接问题,以免小学生误入色情网站?
最后想说,我和百度并无私人恩怨,我只希望通过对问题的揭示,以及对国外解决问题的方法的介绍,来告诉大家:我们的互联网信息环境很不理想,我们的互联网平台本来是可以做得更好的,它们也应该做得更好,而这需要我们每一位用户向它们施加更大的压力,大声说出自己的不满,告诉它们用户真正的需求是什么,更加在意地挑选手机中安装的app。
我会继续观察和监督,希望你也是。
维基百科和互联网档案馆,都能够让你感受到互联网最美好的样子:丰富、优质的信息,悉心的编辑整理,无偿开放的使用,借助技术解决最紧要的问题。最最重要的是:对信息负责任的态度。
请不要拿百度和维基百科比 不配[微笑]
web.archive.org只是许许多多国内用户难以访问的优秀网站之一……[闭嘴]
百度真是烂到骨子里了,刚才实验了下,真是色情网站还能观看。
这么说吧,之前在百度百科上修改一个国外女演员的资料(03年去世的,然而现在都还没有更新),辛辛苦苦查了英文网站imdb的资料,标了引用,结果通知我引用不合规范不予认定~~从此不再用百度百科,现在可以看看百度自己引用的链接是什么货色~
停,这不是通往幼儿园的车……
之前看了方大的那个文章,感觉目前整体环境真是有点闭塞的趋势,很多网站和APP都巴不得信息别流通,最好自己坐享信息差的福利,这是怎么了?
然而国内大部分网站都用robots.txt禁止了internet archive的抓取.....
已经半年不用百度,离开百度真的能活
百度救火很快,今天就改了。
方老师文章分析最可贵之一在于,不仅指出问题和背后的原因,还提供了优秀例子和解决方式
你是没半夜去UC上逛一圈儿,那里还有新天地
既然GFW屏蔽不良内容,那为什么只屏蔽Google而不屏蔽把人误导到色情网站的百度?[微笑]
公众号现在改的,有好看的文章我也不敢点“好看”了。。。
今年过年回家给家里电脑安装了上网工具,把默认搜索引擎从百度改成了Google,并且告诉爸妈多点维基百科,少看百度百科。
网站的前景在于https,以前仅仅基于http协议的网站,太容易被仿冒和劫持。但是国内的组织机构对此认识不足。
搜普通话考试这种会被引导加微信,然后再引导办假证。
搜伦理和搜某些英文单词也会在首页被导向不可描述网站
每年娃生日的时候都去维基捐点钱,希望它活的好好的。
百度旗下各种产品天生自带的高权重,早已被国内无数垃圾网站当作引流圣地而玩烂!曾经的百度知道、贴吧,还有现在的百科等等。产品都是好产品,服务也都是好服务,可惜心术不是正的...
唉,李彦宏还是第一个因为发展人工智能上过《时代》杂志亚洲版的科技公司大佬[撇嘴][撇嘴]
百度才是真正的老司机[捂脸]
百度百科想修改都得收费,碰上虚假信息都没法儿改,你说怎么办?
支持方老师,百度至今还没有任何承诺改善的态度和想法让人匪夷所思…媒体和公众应该给予更多压力和关注。
以前百度图片搜CString,也会翻车。。。程序员都知道。后来可能被百度的程序员知道了,才清理没了。[偷笑]
谢谢方老师不但给我们展示了这个问题,还为我们提供了调查的小工具[嘿哈]
已经改掉了[捂脸]
。。。百度还要解决一下百度知道里的问题
谷歌有瑟琴内容屏蔽,而百度搜索一些正常内容也可能被导向瑟琴网站
文章的最后一段话,是一个拥有媒介素养的人的呼声[太阳]
Get到了,互联网时光机,黑科技!
百度🐮🍺(🌸🐤)
卧槽,随便打开一个参考资料还真是!!!
现在试试,还真是这样
之前在百度搜索我们学院的信息,点开我们学院的一些一两年之前的新闻,之后居然是赌博网站
百度现在变得太繁杂,已经不是一个纯粹的搜索工具了,而且广告也很多。求推荐一个好的手机浏览器
简直触目惊心啊!
还真是如此
我的天[流汗]
这篇文章从百度引入,但从根本上来说不是关于百度的。我想向大家介绍数字世界中的美好事物,并且希望启发大家思考:我们怎样才能拥有乃至创造这样的美好事物?(顺带推荐《美好事物》by房东的猫🎵)