国内与国外大模型的差距就两点:钱与数据
- 种斌Marco
- 2025-01-13 12:01:34
国内与国外大模型的差距就两点:钱与数据!
钱方面
融资规模:国外大模型公司的融资规模较大。如2024年10月OpenAI获得了66亿美元的融资,而国内大模型领域年内最多的一笔融资超10亿美元,其他融资涉及金额在数亿美元量级。
研发投入:国外科技巨头在大模型研发上的投入巨大。据估算,大模型训练一次的成本介于200万美元-1200万美元之间,如ChatGPT的GPT-4模型参数多达1.76万亿,训练一次的成本高达6300万美元。相比之下,国内虽有华为、腾讯、阿里等企业在研发上有较大投入,如2022年华为研发投入1615亿元,腾讯614亿元,阿里555亿元,但在大模型专项投入上与国外仍有差距。
投资热度:国外对大模型的投资热度更高。2023年上半年,全球人工智能领域共计发生融资1387件,筹集融资金额255亿美元,平均融资金额达2605万美元,而国内2023年上半年人工智能领域共发生161起投融资事件,披露获得投资的大模型公司仅20家,融资额普遍为千万至数亿元之间。
数据方面
数据量:从互联网网站使用的语言文字百分比来看,2020年英文占比为59.3%,而中文只有1.3%,这导致可供训练的中文数据总量相对较少。此外,国外在一些领域的数据开放程度较高,如谷歌地图的数据可供地理学者等使用,而国内部分公共部门数据虽量大且结构不错,但开放程度不够,如中国地表温度数据不对外开放。
数据质量:国内数据产业投入以及精细化程度有限,导致可用训练数据的质量进一步降低。而国外在数据的收集、整理和标注等方面相对更为成熟和规范,能够提供更高质量的训练数据,从而更好地满足大模型对数据质量的要求。
数据多样性:国外的数据来源广泛,涵盖了多种语言、文化、行业等,数据的多样性更强。这有助于大模型学习到更丰富的知识和模式,提高其在不同场景下的适应性和泛化能力。相比之下,国内的数据在语言和文化等方面相对较为集中,多样性稍显不足。AI创造营
钱方面
融资规模:国外大模型公司的融资规模较大。如2024年10月OpenAI获得了66亿美元的融资,而国内大模型领域年内最多的一笔融资超10亿美元,其他融资涉及金额在数亿美元量级。
研发投入:国外科技巨头在大模型研发上的投入巨大。据估算,大模型训练一次的成本介于200万美元-1200万美元之间,如ChatGPT的GPT-4模型参数多达1.76万亿,训练一次的成本高达6300万美元。相比之下,国内虽有华为、腾讯、阿里等企业在研发上有较大投入,如2022年华为研发投入1615亿元,腾讯614亿元,阿里555亿元,但在大模型专项投入上与国外仍有差距。
投资热度:国外对大模型的投资热度更高。2023年上半年,全球人工智能领域共计发生融资1387件,筹集融资金额255亿美元,平均融资金额达2605万美元,而国内2023年上半年人工智能领域共发生161起投融资事件,披露获得投资的大模型公司仅20家,融资额普遍为千万至数亿元之间。
数据方面
数据量:从互联网网站使用的语言文字百分比来看,2020年英文占比为59.3%,而中文只有1.3%,这导致可供训练的中文数据总量相对较少。此外,国外在一些领域的数据开放程度较高,如谷歌地图的数据可供地理学者等使用,而国内部分公共部门数据虽量大且结构不错,但开放程度不够,如中国地表温度数据不对外开放。
数据质量:国内数据产业投入以及精细化程度有限,导致可用训练数据的质量进一步降低。而国外在数据的收集、整理和标注等方面相对更为成熟和规范,能够提供更高质量的训练数据,从而更好地满足大模型对数据质量的要求。
数据多样性:国外的数据来源广泛,涵盖了多种语言、文化、行业等,数据的多样性更强。这有助于大模型学习到更丰富的知识和模式,提高其在不同场景下的适应性和泛化能力。相比之下,国内的数据在语言和文化等方面相对较为集中,多样性稍显不足。AI创造营