开发学院

您的位置:首页>资讯>正文

资讯

多家网站屏蔽苹果AI爬虫,以保护自身内容不被用于AI训练

开发学院2024-09-02 10:42:58
人工智能的发展依赖于大量数据的学习和分析。当用户依赖AI完成写作任务时,这些智能系统需要从互联网上获取信息。然而,一些知名网站,包括《纽约时报》,已明确拒绝苹果公司的AI系统使用其内容进行训练。

  人工智能(AI)的发展依赖于大量数据的学习和分析。当用户依赖AI完成写作任务时,这些智能系统需要从互联网上获取信息。然而,一些知名网站,包括《纽约时报》,已明确拒绝苹果公司的AI系统使用其内容进行训练。

   苹果公司的人工智能项目尚未公开发布,但已经引起了广泛的关注。随着iOS 18的即将推出,预计苹果智能将在下月与用户见面,尽管它可能不会立即全面投入使用。目前,只有部分功能在iOS 18.1的开发者测试版中可用,且仅限于最新款的iPad Pro和iPhone Pro。预计随着iPhone 17的发布,苹果智能将得到更广泛的支持。

  苹果智能代表了苹果公司在人工智能领域的最新进展。为了提供服务,它需要通过AI爬虫技术从互联网上抓取和学习数据。

  AI爬虫技术指的是利用AI算法自动从网站抓取数据的过程。这包括从网页中提取、分析和整理信息,这些信息可以用于训练AI模型,如苹果智能,或构建大规模的数据集。

  尽管AI聊天机器人普遍采用这种训练方式,但苹果智能还未准备好进行全面的测试版发布,就已经有多家网站开始采取措施阻止苹果的AI爬虫。对于担心自己网站安全的用户,我们提供了保护网站免受AI爬虫侵害的方法。

  这对苹果智能来说可能是一个挑战,因为那些选择屏蔽苹果AI爬虫的网站,如Facebook、Instagram、Craigslist、Tumblr、《纽约时报》、《金融时报》、《大西洋月刊》、Vox Media、今日美国网络和康泰纳仕,都是重要的内容来源。

  苹果智能并没有在暗中进行网站爬取。实际上,它为网站提供了选择退出的机制。但是,可能苹果没有预料到会有这么多网站选择退出,尤其是在产品正式发布之前。

  AI爬虫技术已经存在了一段时间,但与人工智能的结合相对较新,这可能是导致一些网站感到不安的原因。

  苹果的AI爬虫被称为“Applebot-Extended”。Applebot最初于2015年推出,用于为Siri和Spotlight提供数据支持。为了支持苹果智能,苹果需要一个不同的爬虫。Applebot-Extended的设计初衷是防止数据被用于训练苹果的大型语言模型(LLM)。

  苹果并不是唯一受到限制的公司。来自OpenAI、Anthropic等其他AI领域的主要参与者的AI机器人也遭遇了类似的封锁。尽管苹果受到的限制较少,但它仍然是一个新兴的领域,尚未正式亮相。这表明网站对苹果的信任度可能并不比对其他AI公司更高。

对  于那些希望收集数据的用户,我们推荐了一些任何人都可以使用的AI网络爬虫工具,并提供了Octoparse的评测,这是一种简单易用的网络爬取解决方案。