帖子标记 ‘Internet’

Shared by e6nian
部分赞同~

不想再打工受老板气了,不想和一群成不了气候的人干了,自己创业开公司,想怎么样就怎么样!这是很多人的人生目标,这也是这个时代给我们的大好机 会。本人在互联网混了多年,当过经理人,也做过咨询,有一些经验拿出来给分享。同时也感谢朋友们提供的一些素材案例,文中提到的一些公司反面事例用字母代 替。

 

 

1人力资源槛:找对的人比找牛的人要好,如果不行就是老婆也要赶走。

这个时代是合伙人的时代,人已经不满足于有一份工作,而更看中这份工作的属性,是不是自己的,人人都有自己当老板的想法,为什么?因为我们的文化中 当老大可以指挥一切。所以有80%的企业都是中小企业,员工都以打工者的心态在工作,有时候非常计较薪水,不认同你画的烧饼,其实很简单,在初创期让所有 的人都成为股东,都是在做自己的事,积极性就好办了。因为做不好大家没饭吃,做好了也不是老板一个人有饭吃。
(全文 …)

创新工场董事长兼CEO李开复

创新工场董事长兼CEO李开复

6月15日消息,创新工场董事长李开复今日在腾讯合作伙伴大会上表示,互联网创业黄金时代已经来临,创业成本从来没有这么低过。

李开复指出,一方面是用户获取门槛降低,在中国创业者可以用QQ,Q+这样的方式,更容易吸引让用户。另一方面,创业者不再需要去雇销售团队,放到 网上就可以销售,就可以直接分成。此外,过去拉投资非常困难,但现在只要有真实的互联网创业的想法,像创新工场这类企业就可以很快帮助创业者获得资金。

“在这样一个市场开发软件,又有平台资助的前提下,创业者时代真的是来临,因为创业成本从来没有在历史上这么低过。”
(全文 …)

【TechWeb报道】3月22日消息,据国外媒体报道,最近业界有大量关于第二次互联网泡沫的讨论。批评者指出,高估值的社交媒体,如 Groupon、Zynga、Twitter 和Facebook等都是金矿中的金丝雀。Twitter这样一个盈利模式相对不成熟的公司的估值是否应该达到100亿美元?即使Facebook用户超 过6亿,它的估值是否就应该比福特的更高?一些传言甚至暗示,Quora这样一家2010年6月才向公众开放的公司估值已达到10亿美元。

备受尊敬的业界人士也表达了他们对该现象的关注。风险投资机构Union Square Ventures的VC Fred Wilson称,“当我环顾我们目前的处境,让我想起了1999年的许多情形,坦白地说这让我害怕。”前IAC CEO Barry Diller提到最近的估值称之为“疯狂的数字”。

但并不是每个人如此恐惧。三位经历了第一次互联网泡沫的纽约企业家认为,现在与上世纪90年代的互联网泡沫的比较本身就夸大了。

Jeff Stewart、Steve Krein和Andrew Weinreich这三位企业家表示,目前科技业的现象与上世纪90年代有根本的不同,以下是4点原因:

1.创业成本

Mimeo.com创始人Jeff Stewart称,在上世纪90年代,开一家公司更多的钱是用来租办公室、服务器和设备。现在创业可以不用服务器,甚至可以移动办公。有如此多的云基础设 施,企业家可以更专注在产品上。相对以前而言,投资者不需要投入很多,风险也较小。结论是,今天创业成本低。
(全文 …)

美国知名IT杂志《eWeek》网络版今天撰文,指出苹果的所有产品都应当降价,并解释了此举的10大原因。
eWeek网站的原文如下:

近 来业界纷纷猜测,苹果即将推出更加价廉的iPhone。特别是在过去的几个星期,大量的报道还是层出不穷,声称苹果可能会在今年下半年推出更加便宜的 iPhone手机。起初,传闻还称,便宜版的iPhone手机体积可能会稍小一些,但后来,一些传闻又称,便宜版的iPhone体积将与原先版的智能手机 大小相当。

无论如何,市场更愿意听到苹果将推出降价版iPhone手机的消息。但 是,苹果其它产品也会降价吗?一些人士认为,苹果其它产品的价格已经过高,如果苹果的所有产品都能降价,那就再好不过了。当然,从目前的情况来看,苹果所 有产品都应当降价,这一点可以从以下10大原因中找到答案。

1、平板电脑市场竞争激烈

与 苹果的其它产品相比,iPad平板电脑的价格并不过高。消费者只需支付499美元,就可以获得一台iPad平板电脑,但是要想使用3G版的iPad,消费 者则需要至少拿出629美元。去年,这一价格还算可以,但到了今年,随着诸多竞争性新设备的即将出台,特别是基于Android 3.0“蜂窝”系统和双核处理器并带有4G网络连接功能的设备即将亮相,苹果的iPad在这些即将而来的竞争对手面前,似乎稍显动力不足,在这样的情形之 下,苹果要么推出新款的iPad,要么就下调现有iPad的销售价格。
(全文 …)

你使用哪一家的电邮服务?也许很多人会觉得无关紧要,而事实上,有趣的是,特定的电邮服务使用者会具备某一型的(性别、年龄、政治倾向等)特征。 Hunch上的一篇文章内公布了针对特定电邮服务使用者的 调查结果(带图表),并得出了一些有意思的结论,比如:

使用Gmail的倾向于是18-34岁之间受过大学教育的男性、无宗教信仰、单身、政治倾向自由, 而使用AOL的则很可能是35-64岁身材超重的女性、有高中学历、政治中立、结婚或同居十年以上、有子嗣。其他涉及的电邮服务还包括Yahoo和 Hotmail等。

电子邮件域名暴露你的个性

Google伦敦新办公室

设计公司Scott Brownrigg完成了Google伦敦新办公室的工程,让我们先睹为快。

大厅正门是两扇O型门:
(全文 …)

想提升你的技术能力,以留在竞争激烈的市场?虽然在这个充满挑战的就业市场经验已经不是什么秘密事项,在决定关注的重点之前,研究哪些技能最赚钱仍 然是很 有帮助的。尽管工资已经连续第二年停滞不前,有一些领域,已经开始增长,如编程语言Python和Perl,或光纤通道存储专家。调查还发现,尽管近半数 的人持有技术认证,但它们可能不会像预期那样有帮助,因为51.9%的受访者表示,认证并没有帮助他们找到新工作。
下面展示了前12项技术技能统计包括存储、应用程序开发、操作系统、数据库和网络,以及全国使用这些技能的人士的平均工资。

这些数据是根据Dice.com一项网上从2010年8月13号至11月15日近20000名IT专业人士进行调查的结果 :

1、Java仍然占主导地位
Java/J2EE以及相关技术,如JSP和JDBC,平均薪金仍然是最高的。尽管占据了编程语言前10名中 的前三个位置,IT专业人士也应该考虑扩大到其他语言,同时加强其Java能力。自2009年以来JDBC,JSP和Java/J2EE的平均工资下降了 1.4%到3.9%。 C语言也降了,但有很多C程序员同时也是Java程序员。平均工资为:jdbc 98100美元; JSP93813美元;Java/J2EE:91060美元; C程序员 90346;Visual C++ 88227;的C ++86648; C#85501美元。

2、Apex云计算编程进入新境界
Apex是Salesforce.com这个项目的开发语言,Java或C#程序员都很容易掌握,他运 行在一个多租户云计算环境中。一个较新的调查显示,熟悉Apex的技能两个优点:还没有很多人熟悉这项技能,连续两年都这样。此外,该项调查报告显示差不 多100%的Apex受访者工资都有上涨。2009至2010年间apex专业人士的平均工资有最大的增长,飙升10.2%至95192美元。
(全文 …)

关于网络爬虫的

作者: seasun

由于搜索引擎的泛滥,网络爬虫如今已经成为全球互联网的一大公害。除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有 自己的搜索引擎,搜狐,腾讯,网易。再加上十分流氓的社区搜索奇虎等等,国内大大小小叫得出来名字得就几十家,还有各种不知名的几千几万家,另外还有国外 各种奇奇怪怪的搜索引擎。只要你做的网站是内容丰富的网站,就避免不了被几千几万个爬虫每天爬来爬去。

大的搜索引擎如Google的爬取网页十分智能,爬取频率和爬取压力都没有那么高,对网站资源消耗还比较少,最怕各种各样弱智的爬虫,对网页内容的分析能力很差,经常并发几十上百个请求循环重复抓取,对网站往往是毁灭性打击。

我随便举几个例子:网易有道搜索曾经在一个上午的时间就访问了JavaEye网站60多万次请求,把网站访问拖得很慢,被我们立刻封杀。还比方说 雅虎爬虫的爬行也十分弱智,经常循环爬取,爬行频率非常高,也被我们封杀掉了。然而最可怕的还是奇虎的爬虫,他托管在河北廊坊机房的服务器上面的爬虫,经 常并发上百个请求同时爬取,我有次解除了对该机房的封锁,几秒钟之内,JavaEye网站就彻底无法访问,观察web servr上面堵塞了几百个来自奇虎爬虫的请求。

除了这些叫得出来名字的爬虫之外,还有很多程序员自己写的山寨爬虫,特别是一些菜鸟程序员,完全没有编写爬虫的经验,写出来的爬虫破坏力极强。曾 经有一次我在JavaEye的日志里面发现一个User-Agent是Java的爬虫一天之内爬行了将近100万次动态请求。毫无疑问是个利用JDK类库 编写的简单爬网页程序,由于JavaEye网站内部链接构成了回环导致该程序陷入了爬行死循环,而程序没有相应的处理代码,导致网站资源被大量消耗。

对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过 真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。即使像JavaEye这样一向严厉封杀爬虫的网站,只要稍微松懈一段时间,爬虫流量就能轻易超 过真实访问流量的2倍以上。对于大型互联网网站来说,有足够的硬件资源来应付爬虫带来的庞大访问压力,也有足够的资源和能力去解决这个问题。但是对于中小 型互联网网站来说,爬虫带来的就是毁灭性打击了。

JavaEye网站也一直被网络爬虫问题所困扰,并且不断采用一些新的手段对付网络爬虫,网站和爬虫之间的战争就像此消彼长的拉锯战一样。

一、野蛮型爬虫

在2006年的时候,JavaEye遭遇的网络爬虫基本上都是比较野蛮的爬虫,动不动上百个并发请求一起过来,网站立刻被拖慢或者干脆无法访问, 例如奇虎的爬虫就是这样(百度的爬虫早期也是如此,现在已经斯文多了)。这种爬虫是很容易识别出来的,通过netstat信息查看,或者web server提供的并发连接信息,比方说lighttpd的mod_status就可以非常直观的观察到当前每个并发连接的状态,请求的地址和IP,以及 连接时间。

对付这种野蛮的爬虫其实没有什么太好的办法,只有一种办法,就是直接封杀。然而爬虫往往并不分布在一台服务器上,而是很多台服务器上面,因此你封掉一个ip地址根本不解决问题,所以我们采取的办法就是直接封杀爬虫所在的C网段地址,例如:

iptables -A INPUT -i eth0 -j DROP -p tcp –dport 80 -s 84.80.46.0/24

除此之外还可以采取一些辅助的解决办法,比方说在web server上面限制每IP并发连接数量,如果超过一定的并发连接数量,就直接返回拒绝请求的页面。例如lighttpd可以这样配置:

$HTTP["url"] =~ “^/topics/download/” {
evasive.max-conns-per-ip = 2
}

限定每IP只能并发一个线程下载。

总的来说,这种蛮不讲理的爬虫相对比较稀少,碰到一个封杀一个C段地址基本可以解决此类爬虫。现在JavaEye已经很少遇到这种爬虫了。

这里要特别说明一点:有很多人提出一种极度脑残的观点,说我要惩罚这些爬虫。我专门在网页里面设计不消耗资源的静态循环链接页面,让爬虫掉进陷 阱,死循环爬不出来。能出这种弱智点子的人一看就知道纸上谈兵。根本用不着你设置陷阱,弱智爬虫对正常网页自己就爬不出来,你这样做多此一举不说,而且会 让真正的搜索引擎降低你的网页排名。

而且运行一个爬虫根本不消耗什么机器资源,我在自己的笔记本电脑上面跑个Java程序,发起上百个线程,就算死循环了,也消耗不了多少CPU,根 本不消耗我什么。相反,真正宝贵的是你的服务器CPU资源和服务器带宽,谁消耗谁阿?做程序员最可怕的不是弱智,而是自己不知道自己弱智,总以为自己很明 智。

二、爬虫的海量抓取和海量的各种小爬虫

有很多智能程度比较低的爬虫,比方说雅虎和网易有道的爬虫,它虽然并不会以很高的并发连接爬取你的网站,但是它会以较低的频率持续不间断爬取网 站,一天下来至少爬取几十万页面,极大消耗了服务器资源,拖慢服务器的响应速度。而且由于它爬取的并发不高,一般不容易暴露自己,特别是雅虎的爬虫,分布 很广,来自大约二十几个C段地址,狡兔n窟,你很难找全它所有的C段地址,因此通过简单的封杀IP地址段,对这种爬虫基本无效。

另外还有很多各种各样的小爬虫,特别是以国外的各式各样稀奇古怪的搜索引擎为主,它们都在尝试Google以外创新的搜索方式,每个爬虫每天爬取 你几万的网页,几十个爬虫加起来每天就能消耗掉你上百万动态请求的资源。由于每个小爬虫单独的爬取量都很低,所以你很难把它从每天海量的访问IP地址当中 把它准确的挖出来,因此也没有办法通过直接封杀IP的方式对付它们。

怎么解决这个问题呢? 其实这些爬虫都有一个共同的特点,在爬取网页的时候,会声明自己的User-Agent信息。我们知道每个浏览器都有自己独一无二的User-Agent 信息,比较正规的爬虫,特别是来自国外的爬虫都比较规矩,会声明自己的User-Agent信息,因此我们就可以通过记录和分析User-Agent信息 来挖掘和封杀这些爬虫。

首先我们需要记录每个请求的User-Agent信息,对于用rails开发的JavaEye网站来说这很简单,我们在 app/controllers/application.rb里面添加一个全局的before_filter,来记录每个请求的User-Agent信 息:

logger.info “HTTP_USER_AGENT #{request.env["HTTP_USER_AGENT"]}”

这样就会把每个请求的User-Agent信息记录到production.log里面去。

然后我们统计每天的production.log,抽取User-Agent信息,找出访问量最大的那些User-Agent。但是这里要注意的 是我们只关注那些爬虫的User-Agent信息,而不是真正浏览器User-Agent,所以我们还要排除掉浏览器User-Agent,最后我们就可 以得到一个访问量最多的爬虫列表。要做到这一点仅仅需要一行shell:

grep HTTP_USER_AGENT production.log | grep -v -E ‘MSIE|Firefox|Chrome|Opera|Safari|Gecko’ | sort | uniq -c | sort -r -n | head -n 100 > bot.log

这行shell命令从production.log里面抽取包含User-Agent的日志,然后排除真实浏览器的User-Agent,再统计 访问量,然后按照访问量从大到小排序,最后挑选排名前100的记录到日志文件里面去。或者你也可以直接把输出内容发送到你的邮箱里面去。

最终的爬虫统计结果类似下面这样:

57335 HTTP_USER_AGENT Baiduspider+(+http://www.baidu.com/search/spider.htm)
56639 HTTP_USER_AGENT Mozilla/5.0 (compatible; Googlebot/2.1; +http://www..com/bot.html)
42610 HTTP_USER_AGENT Mediapartners-Google
19131 HTTP_USER_AGENT msnbot/2.0b (+http://search.msn.com/msnbot.htm)
8980 HTTP_USER_AGENT Mozilla/5.0 (compatible;YoudaoFeedFetcher/1.0;http://www.youdao.com/help/reader/faq/topic006/;1 subscriber;)
8034 HTTP_USER_AGENT Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm)
7847 HTTP_USER_AGENT msnbot/1.1 (+http://search.msn.com/msnbot.htm)
4342 HTTP_USER_AGENT Mozilla/5.0 (compatible; Google Desktop)
3183 HTTP_USER_AGENT
3115 HTTP_USER_AGENT Mozilla/4.0
2900 HTTP_USER_AGENT WordPress/2.7
2096 HTTP_USER_AGENT -PubSub/65.11
1891 HTTP_USER_AGENT Zhuaxia.com 1 Subscribers
1201 HTTP_USER_AGENT Apple-PubSub/65
1154 HTTP_USER_AGENT Mozilla/5.0 (compatible;YoudaoFeedFetcher/1.0;http://www.youdao.com/help/reader/faq/topic006/;2 subscribers;)
1059 HTTP_USER_AGENT FeedBurner/1.0 (http://www.FeedBurner.com)

从日志就可以直观的看出主要是Google,baidu,微软msn,网易有道和腾讯搜搜的爬虫,以及每个爬虫爬取的请求次数。通过这个简单的办法,你就可以有效的窥视每个爬虫的动向,如果哪个爬虫不老实,胆敢疯狂爬取的话,你就可以一眼把它挑出来。

要根据User-Agent信息来封杀爬虫是件很容易的事情,主流的Web Server都支持针对User-Agent信息的设置,JavaEye使用的是lighttpd,因此用以下的lighttpd配置来封杀爬虫:

$HTTP["useragent"] =~ “qihoobot|^Java|Commons-HttpClient|Wget|^PHP|Ruby|Python” {
url.rewrite = ( “^/(.*)” => “/crawler.html” )

新浪科技讯 北京时间1月15日下午消息,美国商业网站Under30CEO从全球30岁以下的企业CEO中,评选出2010年最有影响力的30位。其 中,Facebook CEO马克·扎克伯格(Mark Zuckerberg)位居首位。

以下为上榜的前十大CEO:

Facebook CEO马克·扎克伯格Facebook CEO马克·扎克伯格

1、马克·扎克伯格

公司:Facebook

年龄:26

净资产:69亿美元

扎克伯格2004年在哈佛大学的寝室里创办了Facebook,这家社交网站如今的用户量已经超过5亿。他是全球最年轻的亿万富翁,而 Facebook也于2010年获得了超过300亿美元的估值。扎克伯格改变了人们的互动方式,而且以超乎想象的速度推倒了社会隔阂。《时代》周刊甚至将 他评为2010年年度人物。Facebook至今仍然没有出现放缓的迹象。

Groupon CEO安德鲁·梅森Groupon CEO安德鲁·梅森

(全文 …)

2010年还有几天就要结束了,和往年一样,在每年的这个时候都会由我从过去365天诞生的若干互联网产品中,精挑细选出10款也许最值得大家跟我 一起去回味和关注的创新并且小众互联网产品。感谢这些值得尊敬和信赖的创业者和团队丰富了我们的互联网生活!

No.1

卷豆网 是一家致力于为站长用户提供适合在线社区的电子商务解决方案的服务性站点,淘金链(LinkMiner)是其发布的第一个产品。它能够将用户网站上的普通 的网店链接和在线商品链接(比如淘宝商品链接)转换为支持佣金结算的CPS链接(比如淘宝客链接),在不影响用户体验和不占用广告位的情况下,为站长们开 辟出了一块全新的收入来源。

关注程度:★★★★★
趣味指数:★★★☆☆
商业想法:★★★★★
产品分类:电子商务、插件

快评卷豆网是今年我见过众多产品中最令我兴奋的一个项目,它革命性的同时整合了创意、技术以及商业。 给中小型站长带去了新的机遇,重要的是产品富有想象力!
(全文 …)