文件:News research 900.xlsx
来自cslt Wiki
News_research_900.xlsx (文件大小:2.8 MB,MIME类型:application/vnd.openxmlformats-officedocument.spreadsheetml.sheet)
警告:该文件类型可能含有恶意代码。执行后你的系统可能受损。
我们根据http://top.chinaz.com/hangye/index_news.html 上的新闻网站排名对现有的新闻网站做了一下调研。排名中共有1900余个网站,因为排名靠后的网站大多更新量较少或已经关闭,因此我们只调研了前900个网站(包括所有的电子报,因为大部分电子报网站可用并且结构单一)。附件中是调研结果,灰色的是已经爬取的,绿色的是可用的,蓝色的是新闻量较少的(少于100M),橘黄色的是动态网页(爬取复杂 数据量不易预估),红色的是不可用的(英文、繁体字、视频广播网站、其他网站中包含的新闻页等),红色填充的是网址有问题的网站。其中可用网站有292个,我们决定先爬绿色标注中数据量大于1G的网站,太少的网站工作量又大结果又少,暂时不予考虑。大于1G的网站大约有40多个,数据量在60-80G左右。如果爬取完成后还需要更多新闻网站,我们可以再解析500M-1G的网站。
文件历史
单击某个日期/时间查看对应时刻的文件。
日期/时间 | 大小 | 用户 | 备注 | |
---|---|---|---|---|
当前 | 2016年10月24日 (一) 12:37 | (2.8 MB) | Baizw(讨论 | 贡献) | 我们根据http://top.chinaz.com/hangye/index_news.html 上的新闻网站排名对现有的新闻网站做了一下调研。排名中共有1900余个网站,因为排名靠后的网站大多更新量较少或已经关闭,因此我们只调研了... |
- 您不可以覆盖此文件。
文件用途
没有页面链接到本文件。