文件:News research 900.xlsx

来自cslt Wiki
2016年10月24日 (一) 12:37Baizw讨论 | 贡献的版本

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索
News_research_900.xlsx(文件大小:2.8 MB,MIME类型:application/vnd.openxmlformats-officedocument.spreadsheetml.sheet)
警告:该文件类型可能含有恶意代码。执行后你的系统可能受损。

我们根据http://top.chinaz.com/hangye/index_news.html 上的新闻网站排名对现有的新闻网站做了一下调研。排名中共有1900余个网站,因为排名靠后的网站大多更新量较少或已经关闭,因此我们只调研了前900个网站(包括所有的电子报,因为大部分电子报网站可用并且结构单一)。附件中是调研结果,灰色的是已经爬取的,绿色的是可用的,蓝色的是新闻量较少的(少于100M),橘黄色的是动态网页(爬取复杂 数据量不易预估),红色的是不可用的(英文、繁体字、视频广播网站、其他网站中包含的新闻页等),红色填充的是网址有问题的网站。其中可用网站有292个,我们决定先爬绿色标注中数据量大于1G的网站,太少的网站工作量又大结果又少,暂时不予考虑。大于1G的网站大约有40多个,数据量在60-80G左右。如果爬取完成后还需要更多新闻网站,我们可以再解析500M-1G的网站。

文件历史

单击某个日期/时间查看对应时刻的文件。

日期/时间大小用户备注
当前2016年10月24日 (一) 12:37(2.8 MB)Baizw讨论 | 贡献我们根据http://top.chinaz.com/hangye/index_news.html 上的新闻网站排名对现有的新闻网站做了一下调研。排名中共有1900余个网站,因为排名靠后的网站大多更新量较少或已经关闭,因此我们只调研了...
  • 您不可以覆盖此文件。

没有页面链接到本文件。