专门用来从HTML生成markdown的小模型↓...
- 黄建同学
- 2024-09-18 08:08:26
专门用来从HTML生成markdown的小模型↓ai程序员
Jina AI宣布推出reader-lm-0.5b和reader-lm-1.5b,两个小型语言模型 (SLM),灵感来自 Jina Reader。
• 经过专门训练,可直接从嘈杂的原始 HTML 生成干净的 markdown。
• 这两个模型都是多语言的,支持最多 256K 个 token 的上下文长度。
• 尽管体积小巧,但这些模型在这项 HTML2Markdown 任务上实现了最先进的性能,性能优于更大的 LLM 同类模型,而尺寸仅为后者的 1/50
Blog:jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown
可以直接在colab尝试:colab.research.google.com/drive/1wXWyj5hOxEHY6WeHbOwEzYAC0WB1I5uA
ChatGPT
Jina AI宣布推出reader-lm-0.5b和reader-lm-1.5b,两个小型语言模型 (SLM),灵感来自 Jina Reader。
• 经过专门训练,可直接从嘈杂的原始 HTML 生成干净的 markdown。
• 这两个模型都是多语言的,支持最多 256K 个 token 的上下文长度。
• 尽管体积小巧,但这些模型在这项 HTML2Markdown 任务上实现了最先进的性能,性能优于更大的 LLM 同类模型,而尺寸仅为后者的 1/50
Blog:jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown
可以直接在colab尝试:colab.research.google.com/drive/1wXWyj5hOxEHY6WeHbOwEzYAC0WB1I5uA
