Đây là một tuần đầy ấn tượng với những tiến bộ trong lĩnh vực AI và robotics. Brett Adcock đã tổng hợp mọi thông báo từ Anthropic, Ideogram, Figure, Genmo, Runway, Microsoft, Google DeepMind, OpenAI, UCLA, Apple, Clone Robotics và nhiều công ty khác. Đây là tất cả những gì bạn cần biết và cách hiểu nó:
Anthropic: Khả Năng Mới của Claude
Anthropic thông báo rằng Claude hiện có thể sử dụng máy tính thông qua tương tác trực tiếp với màn hình (trong phiên bản beta công khai). Mô hình AI có thể di chuyển con trỏ, nhấp chuột và gõ phím bằng cách phân tích ảnh chụp màn hình, đạt 14,9% trên các chuẩn mực OSWorld—gấp đôi hiệu suất của mô hình AI tốt nhất tiếp theo.
Ideogram: Giới Thiệu Canvas
Ideogram đã ra mắt Canvas, một nền tảng sáng tạo cho việc tạo và chỉnh sửa hình ảnh bằng AI. Hệ thống này có tính năng Magic Fill để chỉnh sửa khu vực chính xác và Extend để mở rộng hình ảnh vượt qua các đường viền. Cả hai công cụ này duy trì một phong cách thống nhất qua các sửa đổi.
Figure: Khuôn Viên Mới cho Robot
Figure đang thiết lập một khuôn viên mới cho robot tại khu vực Bay Area, để mở rộng quy mô hoạt động tại địa điểm mới này. Khuôn viên này đã lâu là một văn phòng mơ ước của nhiều người.
Genmo: Ra Mắt Mochi 1
Startup AI Genmo vừa ra mắt Mochi 1, một mô hình tạo video mã nguồn mở mới. Startup này tuyên bố rằng nó cạnh tranh với các đối thủ đóng như Runway, Pika và Kling, trong khi được cung cấp miễn phí cho các nhà phát triển và nhà nghiên cứu—một chiến thắng cho mã nguồn mở.
Runway: Hệ Thống AI Act-One
Runway giới thiệu Act-One, một hệ thống AI mới tạo ra các hoạt cảnh nhân vật biểu cảm từ một video và hình ảnh đơn lẻ. Công nghệ này chuyển đổi các biểu diễn khuôn mặt thành các nhân vật được tạo ra mà không cần ghi lại chuyển động, duy trì các biểu cảm và chuyển động tinh tế.
Microsoft: Copilot và Dynamics 365
Microsoft đã công bố các khả năng mới cho Copilot và Dynamics 365. Các tính năng mới cho phép người dùng tạo ra các agent (đại diện) của riêng họ để hoạt động độc lập và nâng cao quy trình. Microsoft gọi đây là “các ứng dụng mới cho thế giới được hỗ trợ bởi AI.”
Google DeepMind: SynthID
Google DeepMind đã tiết lộ SynthID, một hệ thống đánh dấu watermark nhúng và phát hiện các dấu hiệu không thể nhận thấy trong hình ảnh, âm thanh, văn bản và video do AI tạo ra. Bộ công cụ beta này tích hợp với các sản phẩm của Google để giúp người dùng xác định nội dung AI trên nhiều loại phương tiện.
UCLA: Mô Hình Nền Tảng cho Hình Ảnh Y Tế 3D
Các nhà nghiên cứu UCLA đã phát triển một mô hình nền tảng mới phân tích hình ảnh y tế 3D như MRI và CT tuân thủ tốc độ của các chuyên gia. Mô hình AI này có thể chuyển đổi học tập qua các cơ quan khác nhau và loại hình ảnh, thể hiện sự linh hoạt ấn tượng.
Apple: Tích Hợp ChatGPT
Apple ra mắt tích hợp ChatGPT trong phiên bản beta cho nhà phát triển, đưa AI này vào Siri, Visual Intelligence, và Writing Tools. Người dùng hiện có thể truy vấn hình ảnh và tệp tin trên toàn hệ thống iOS và tương tác với môi trường thông qua Camera Control. Đây là một ví dụ:
OpenAI: Mô Hình sCM
OpenAI giới thiệu sCM, một mô hình nhất quán thời gian liên tục đơn giản hóa, đạt chất lượng của các mô hình khuếch tán chỉ trong hai bước lấy mẫu. Mô hình 1,5 tỷ tham số này tạo ra hình ảnh chất lượng cao trong 0,11 giây, tăng tốc 50 lần so với cách tiếp cận truyền thống.
Haiper: Nền Tảng Tạo Video
Startup AI Haiper đã ra mắt phiên bản 2 của nền tảng tạo video. Nó được cung cấp miễn phí và có khả năng tạo đoạn clip ngắn, hoạt hình hình ảnh và repainting video. Việc tạo video AI có khả năng sẽ thấy bước nhảy đáng kể, tương tự như đã được quan sát trong việc tạo hình ảnh AI.
EngineAI: Robot Humanoid SE01
EngineAI đã tiết lộ robot SE01, một robot humanoid đạt được bước đi tự nhiên thông qua các mô đun khớp nối và mạng nơ-ron tiên tiến. Robot này kết hợp reinforcement và imitation learning để tạo ra các bước đi ổn định, nhanh hơn, khác biệt so với các chuyển động robot truyền thống.
Clone Robotics: Torso
Clone Robotics đã giới thiệu Torso, một android với hai tay được vận hành bởi các cơ nhân tạo. Hệ thống humanoid này có khớp nối chính xác về mặt giải phẫu trên vai, cổ và tay, với hệ thống điều khiển van tích hợp vào cấu trúc xương sườn.
Các Nhà Nghiên Cứu Cambridge: Paleo-Robots
Các nhà nghiên cứu Cambridge đã giới thiệu ‘paleo-robots’ để nghiên cứu cách cá cổ đại chuyển từ bơi sang đi bộ từ 390 triệu năm trước. Các mô hình robot này, được lấy cảm hứng từ mudskippers và các hóa thạch, nhằm mục đích xác nhận các lý thuyết về sự tiến hóa của động vật trên cạn thời kỳ đầu.