提供的爬取软件来源于:52pojie.cn@夜泉 免费下载使用

在百度搜索部分小学和幼儿园,会被导向色情网站

方可成 新闻实验室 2019-02-28

科技

搜索引擎|链接|百度百科

作者:方可成



前两天,一位广州的家长在微博上发来私信,他发现:在百度中搜索广州的很多小学和幼儿园的名字,结果中排在首位的一般都是百度百科,而进入百度百科页面之后,点击参考文献中的“广州上学网”,却会进入色情网站。



我测试了一下,的确如此。



通过搜索,我发现至少有这些学校的百度百科参考资料会指向色情网站:广州开发区第二小学、广州市海珠区星云幼儿园、广州市越秀区大沙头中英文幼儿园、沙河小学、北山小学、化龙中心小学、滨江东路第二小学、左边小学、复甦小学、五凤小学、芳华小学、协和小学、广州市海珠区江南西艺星幼儿园、广州市越秀区黄金实验幼儿园、小洲小学、侨乐小学、金影小学、培红小学、天河区龙洞小学、同福西路小学、聚德西路小学、博雅小学、天河区棠下小学、长安东街小学、增滘小学、禾丰小学、长湴小学、天河区骏景米洛英文幼儿园、瑞宝花园小学、黄村小学、广雅实验学校、横沙小学、花都区新华镇九潭小学、从化市从化英才幼儿园、乐贤坊小学、黄埔同仁小学、握山小学、三善小学。



为什么会出现这种荒唐的情况?


根据我的分析,原因是:“广州上学网”此前是一个真实的学校信息汇集网站,这些学校的百度百科页面在编写的时候,确实是指向了真正的“广州上学网”。


后来,这个网站关闭了,内容无法再访问。


再后来,“广州上学网”的域名被色情网站运营者买下,设置成了自动跳转色情网站。这样一来,所有原本指向“广州上学网”的链接,现在都会被跳转到色情网站。


所以,百度是躺枪了?都怪色情网站太狡猾,百度对此并无责任?


并非如此。百度百科自称“全球最大的中文百科全书”,是亿万中国人认知世界的渠道,并且在百度搜索结果中获得了极高的展现权重,这就要求它必须采取措施,保证内容质量。


虽然百度百科是人人都可以编辑的,但平台应该对最终呈现的内容负责。实际上,百度自身也对外强调:“参考资料要权威”,要杜绝色情、违法、广告、虚假、灌水、恶意编辑等现象。



杜绝色情违法内容,不仅是编写词条的时候要审核,在词条通过之后也应该时常检查:链接是否失效或被跳转到其他网站。


以百度高超的技术能力(前不久刚刚平稳应对了春晚红包的巨大流量),写一个程序检查百度百科中的失效链接和可疑跳转,是一件再简单不过的事情。


然而遗憾的是,百度并没有做这件事情,而是让色情网站的运营者钻了空子,让部分查询小学和幼儿园信息的家长(乃至学生)被导向了色情网站。



过期链接问题是互联网面临的一大挑战,我们可以对比一下维基百科是怎么做的。


为了处理过期链接问题,维基百科特别制定了如何处理过期链接的详细规则。



过去几年中,在互联网档案馆(Internet Archive)的帮助下,维基百科还利用机器人自动检测失效链接,并替换为有效的历史存档链接,抢救了多达900万个失效链接。



这里就不得不提一嘴互联网档案馆这个高能的资料库。它最有名的“馆藏”,就是互联网时光机(Wayback Mahince),通过它,你可以看到很多网站过去的样子,也可以找回现在已经不存在的网站之前的模样。


比如,我在互联网时光机中输入“广州上学网”的网址,就能看到:从2011年下半年开始,就有了这个网站。



点进2013年的一个快照,可以看到当时这个网站长这样:



从2015年开始的快照,就显示这个网站不再正常运转。2018年的快照,抓下来的就是色情网站。


互联网时光机这个神奇工具的社会意义,怎么说都不为过。它保留下了珍贵的档案资料,供我们探索和研究。


正是在时光机的帮助下,维基百科上的几百万失效链接,都被重新指向了正确的历史版本。


为了防止今后再出现链接过期现象,现在,每当用户在维基百科上添加了一个外部的引用链接,互联网时光机就自动会把这个页面爬取下来储存到自己的服务器上,以保证之后一定可以追溯得到。


互联网档案馆的“馆藏”还不止于此,它还收录了巨量的图书、音频、影像、软件、游戏等资料,还开设了专门的“川普数据库”等主题馆藏,收集了和川普有关的电视新闻、演讲、辩论等。如果你喜欢翻阅资料,你一定会在其中找到自己感兴趣的内容,很可能陷入其中无法自拔。



维基百科和互联网档案馆,都能够让你感受到互联网最美好的样子:丰富、优质的信息,悉心的编辑整理,无偿开放的使用,借助技术解决最紧要的问题。


最最重要的是:对信息负责任的态度。


重金投入人工智能的百度,不妨分出一点点资源解决失效链接问题,以免小学生误入色情网站?


最后想说,我和百度并无私人恩怨,我只希望通过对问题的揭示,以及对国外解决问题的方法的介绍,来告诉大家:我们的互联网信息环境很不理想,我们的互联网平台本来是可以做得更好的,它们也应该做得更好,而这需要我们每一位用户向它们施加更大的压力,大声说出自己的不满,告诉它们用户真正的需求是什么,更加在意地挑选手机中安装的app。


我会继续观察和监督,希望你也是。


维基百科和互联网档案馆,都能够让你感受到互联网最美好的样子:丰富、优质的信息,悉心的编辑整理,无偿开放的使用,借助技术解决最紧要的问题。最最重要的是:对信息负责任的态度。

精选留言

方可成赞:184

这篇文章从百度引入,但从根本上来说不是关于百度的。我想向大家介绍数字世界中的美好事物,并且希望启发大家思考:我们怎样才能拥有乃至创造这样的美好事物?(顺带推荐《美好事物》by房东的猫🎵)

迟岛树赞:513

请不要拿百度和维基百科比 不配[微笑]

lishuhang赞:229

web.archive.org只是许许多多国内用户难以访问的优秀网站之一……[闭嘴]

携风和雨赞:182

百度真是烂到骨子里了,刚才实验了下,真是色情网站还能观看。

404NotFound赞:142

这么说吧,之前在百度百科上修改一个国外女演员的资料(03年去世的,然而现在都还没有更新),辛辛苦苦查了英文网站imdb的资料,标了引用,结果通知我引用不合规范不予认定~~从此不再用百度百科,现在可以看看百度自己引用的链接是什么货色~

Sam赞:108

停,这不是通往幼儿园的车……

豁达人生赞:79

之前看了方大的那个文章,感觉目前整体环境真是有点闭塞的趋势,很多网站和APP都巴不得信息别流通,最好自己坐享信息差的福利,这是怎么了?

Blurryface赞:76

然而国内大部分网站都用robots.txt禁止了internet archive的抓取.....

魏俊博赞:69

已经半年不用百度,离开百度真的能活

MA Liang赞:59

百度救火很快,今天就改了。

见手青赞:54

方老师文章分析最可贵之一在于,不仅指出问题和背后的原因,还提供了优秀例子和解决方式

风雨中那点痛赞:51

你是没半夜去UC上逛一圈儿,那里还有新天地

Distance🍃赞:39

既然GFW屏蔽不良内容,那为什么只屏蔽Google而不屏蔽把人误导到色情网站的百度?[微笑]

夜阑人静听风雨赞:31

公众号现在改的,有好看的文章我也不敢点“好看”了。。。

张慧敏赞:31

今年过年回家给家里电脑安装了上网工具,把默认搜索引擎从百度改成了Google,并且告诉爸妈多点维基百科,少看百度百科。

张令臣赞:19

网站的前景在于https,以前仅仅基于http协议的网站,太容易被仿冒和劫持。但是国内的组织机构对此认识不足。

小胖手赞:18

搜普通话考试这种会被引导加微信,然后再引导办假证。

🍅赞:15

搜伦理和搜某些英文单词也会在首页被导向不可描述网站

崔筝赞:14

每年娃生日的时候都去维基捐点钱,希望它活的好好的。

Afcin赞:14

百度旗下各种产品天生自带的高权重,早已被国内无数垃圾网站当作引流圣地而玩烂!曾经的百度知道、贴吧,还有现在的百科等等。产品都是好产品,服务也都是好服务,可惜心术不是正的...

一日木心赞:10

唉,李彦宏还是第一个因为发展人工智能上过《时代》杂志亚洲版的科技公司大佬[撇嘴][撇嘴]

壹壹〇赞:9

百度才是真正的老司机[捂脸]

佳奇赞:9

百度百科想修改都得收费,碰上虚假信息都没法儿改,你说怎么办?

木鱼赞:8

支持方老师,百度至今还没有任何承诺改善的态度和想法让人匪夷所思…媒体和公众应该给予更多压力和关注。

阿姆赞:8

以前百度图片搜CString,也会翻车。。。程序员都知道。后来可能被百度的程序员知道了,才清理没了。[偷笑]

男神王毅赞:7

谢谢方老师不但给我们展示了这个问题,还为我们提供了调查的小工具[嘿哈]

Latif赞:6

已经改掉了[捂脸]

蜜雪冰城赞:5

。。。百度还要解决一下百度知道里的问题

逆风飞飏赞:4

谷歌有瑟琴内容屏蔽,而百度搜索一些正常内容也可能被导向瑟琴网站

苏月祯赞:4

文章的最后一段话,是一个拥有媒介素养的人的呼声[太阳]

Nickle🌅👦👊赞:4

Get到了,互联网时光机,黑科技!

黄振業赞:4

百度🐮🍺(🌸🐤)

刘彬😃赞:4

卧槽,随便打开一个参考资料还真是!!!

猫娃子赞:3

现在试试,还真是这样

马贝言Mackenzie赞:1

之前在百度搜索我们学院的信息,点开我们学院的一些一两年之前的新闻,之后居然是赌博网站

湖风赞:1

百度现在变得太繁杂,已经不是一个纯粹的搜索工具了,而且广告也很多。求推荐一个好的手机浏览器

时空守护者赞:1

简直触目惊心啊!

單衣赞:0

还真是如此

刘~~q~k 19102604582赞:0

我的天[流汗]

吾爱破解论坛