分类: 未分类

497 篇文章

动态网页数据抓取踩坑分享
Sep 13, 2016 from---https://xuanwo.org/2016/09/13/dynamic-page-data-spider/ 之前做了一些数据抓取的工作,期间也踩了一些坑,所以有了这篇文章。 动态网页数据源获取 需要抓取的页面是使用React JavaScript 框架开发的,所有的页面都是客户端渲染而成,这也就导致我只能看到一个个的 data-id ,没有办法直接获取数据。这就涉及到一个我之前没有接触过的领域——动态网页爬虫。 一番 Google 之后,我了解到动态网页爬虫大致上可以通过以下两种方法实现: 分析网页代码结构和请求,找到数据源的请求链接 调用Webkit渲染之后再进行抓取 第二种方法相当于在命令行中跑一个浏览器,一个页面一个页面的打开,效率可想而知。再加上待抓取页面的 DOM 结构本来就比较复杂,没…
Python书籍推荐
2016 from---https://zhuanlan.zhihu.com/p/22198827 1 年前 从2011年5月买了第一本《Python学习手册(第四版)》开始,我阅读过大量和Python有关的纸质书和开源图书。为什么要买书来看?我认为不外乎两个原因:有趣和能学到东西。技术书肯定不会太有趣,那么最重要的就是能学到东西。市面上Python相关的书相当多,但是有些内容陈旧或者不符合国情,经常能看到并非开发第一线的人写或者翻译的书,这些书显然价值就要低一些;其次是同质化和向入门级别靠拢,市面上关于Python入门或者教授语法知识的书不少,而再深入一点的就很匮乏了。还有一点,现在为了提高书的销量,书名都起的非常有破坏力,很吸引眼球,可是内容完全不够书名的档次。不知道一些回答推荐书籍问题的人是怎么想的,反正话说起来很廉价,又不用负责。但…
从Tmux 转到GNU Screen
2016-07-07 20:14 from---http://www.cnblogs.com/bamanzi/p/switch-tmux-to-gnu-screen.html 网上很多地方都说Tmux比GNU Screen要好用,不过无意间看到这篇Switching from tmux to GNU Screen之后,我发现GNU Screen的窗口/区域概念更好,至少是更适合我(虽然相对Tmux有不少小缺点)。 优点1: GNU Screen的窗口/区域/布局概念更适合某些场景 Tmux里面的窗口概念是: 程序是跑在pane里面的,每个window可切分成多个pane,一般我们会并行开多个window.这样每个window多半用于不同的事情.这种方式要把一个window里面的某个pane移动到另外一个windows GNU Screen的…
thumbnail
使用 udev 高效、动态地管理 Linux 设备文件
2010 年 3 月 02 日 from---https://www.ibm.com/developerworks/cn/linux/l-cn-udev/index.html 概述: Linux 用户常常会很难鉴别同一类型的设备名,比如 eth0, eth1, sda, sdb 等等。通过观察这些设备的内核设备名称,用户通常能知道这些是什么类型的设备,但是不知道哪一个设备是他们想要的。例如,在一个充斥着本地磁盘和光纤磁盘的设备名清单 (/dev/sd*) 中,用户无法找到一个序列号为“35000c50000a7ef67”的磁盘。在这种情况下,udev 就能动态地在 /dev目录里产生自己想要的、标识性强的设备文件或者设备链接,以此帮助用户方便快捷地找到所需的设备文件。 udev 简介 什么是 udev? udev 是 Linux2.6 内核…
Windows下的cmd替代工具?
2015年01月29日 from---https://segmentfault.com/q/1010000002523589?sort=created#answers-title windows都升级了N个版本,但为什么cmd一直都是老样子。 对于开发者来说,中文显示乱码一直很头疼,而且界面字体也不好看。 反观linux下的终端就不一样了,不仅字体好看,而且功能强大,貌似也没有中文显示乱码的麻烦事。 请问,windows下有什么软件可以替代cmd吗? 注:经常需要使用cmd来执行程序 cmder + gow http://win-bash.sourceforge.net/ PowerCMD PowerCmd是一款增强版本的CMD工具,具有Windows操作风格,能帮您快速组织命令提示行窗口。 CMD是Windows平台下的DOS命令行环境,…
GitBook 编译,生成pdf报错
2016(11-14) from---http://www.xttblog.com/?p=951 最近在使用 GitBook 生成静态网页和pdf文件时,百度,谷歌了很久也没有类似的解决方案,最近发现是版本问题,我把我的相关经验分享给大家! 在执行 gitbook build ,gitbook serve,gitbook pdf等命令均保持。报错了错误提示内容如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 info: 10 plugins are installed info: 9 explicitly listed info: loading plugin "baidu"... OK info: loading plugin "donate"... OK info: loading plu…
Windows下GitBook的安装详解
2016(11-14)  from---http://www.xttblog.com/?p=949 各大站长平时除了写博客外,可以使用 gitbook 将一系列的博客专栏整理成电子书出版。这样既方便各大网友阅读,还可以带来新的离线阅读功能。 在以前我们只能靠出版社,或者编写 word 文档,来实现。然而有了 gitbook 之后,一切都变得那么简单了。今天就为大家分享一下,如果在 Windows 系统上安装 gitbook,进行电子书的编写和发布。 安装 nodejs 首先我们需要做的是安装 Nodejs(http://nodejs.cn/)。大家可以到 Nodejs 的官网进行下载。下载完成后,执行双击进行运行安装。安装完成后,打开 cmd 命令行,输入 node -v 查看安装的 nodejs 的相关版本信息。 也可以在安装目录中找到 …