본문 바로가기

전체 글1065

음악을 들려주면 영상이 따라온다: AI 뮤직비디오 📌 핵심 요약 무엇을 했나? 음악(가사 유무 무관)을 입력하면 AI로 스토리 → 장면 대본 → 텍스트→비디오 클립을 자동 생성해 최종 뮤직비디오를 만드는 파이프라인 2가지를 제안했어요.두 가지 흐름: (A) CLAP(음악-문장 정렬) → LLM(스크립트) → 텍스트→비디오, (B) LALM(오디오를 직접 이해하는 오디오-언어 모델) → 이야기(스토리) → 장면 분해 → 텍스트→비디오.결과는? 음악의 분위기·테마를 잘 포착하는 경우가 많지만, 장면 간 시각적 일관성(특히 등장인물 외형·화풍 유지) 이 약점으로 지적되었고, 소규모 사용자평가에서는 CLAP 기반이 약간 더 높은 점수를 받았어요.한마디: 아이디어와 가능성은 뚜렷하지만, 비주얼 일관성·캐릭터 유지·대상 인물 품질(얼굴) 등에서 추가 연구가 필요.. 공부/AI 2025. 9. 3.
몸을 가진 AI 위험과 정책 방향 (EAI 체계 보강) 🔥 핵심 요약 무엇인지 한 문장: ‘몸을 가진 AI(Embodied AI, EAI)’는 말·이미지·감각을 받아 물리 세계에서 보고, 판단하고, 직접 행동하는 AI를 말합니다(예: 배달 로봇, 돌봄 로봇, 자율 주행 차량).무엇이 문제인가: EAI는 물리적 피해·사생활 침해·일자리·사회 구조 변화처럼 기존 AI보다 즉각적이고 광범위한 리스크를 만든다 — 정책·법·표준이 아직 충분치 않습니다.핵심 제안(논문 요지): (1) 위험을 물리/정보/경제/사회로 분류, (2) 현재의 규제(자동차·기계·데이터 법 등)는 일부만 커버하므로 인증·평가·책임 체계 보강이 필요하다고 권고합니다.1) EAI(몸 가진 AI)란? 정의: EAI는 소프트웨어(예: 대형 언어모델)와 실제 하드웨어(로봇, 드론, 자율차 등)가 결합되.. 공부/AI 2025. 9. 3.
LongCat-Flash : 초거대·효율·에이전트 능력까지 잡은 560B 모델 🔥 핵심 요약무엇인가? LongCat-Flash는 560억(560B) 파라미터 규모의 Mixture-of-Experts(MoE) 언어모델로, 토큰별로 필요한 만큼만 계산을 쓰는 설계와 에이전트·도구 사용 능력을 키운 것이 특징이에요.주요 기술 포인트: (1) Zero-computation experts — “아무것도 하지 않는 전문가”를 섞어 토큰마다 계산량을 동적으로 조절, (2) Shortcut-connected MoE(ScMoE) — 계산과 통신을 겹쳐서 GPU 자원 활용을 높임.속도·비용·스케일: 사전학습(20조 토큰)을 ~30일 안에 마쳤고, 배포 시 H800에서 100 TPS(토큰/초) 이상, 출력 토큰당 비용 약 $0.7 / 1M 토큰 수준을 보고합니다.무엇에 잘 쓰이나? 추론(챗), 코딩.. 공부/AI 2025. 9. 3.
직장 속 AI 가이드 : 일 잘하는 AI는 이렇게 만든다 🔥 핵심 요약독일 WIRKsam 프로젝트의 12개 실제 업무 사례를 바탕으로, 직장에서 AI를 쓸 때 기술 요소(무슨 AI를 쓸지·데이터 품질·전문가 지식 통합)와 심리 요소(수용·개방성·신뢰·공정성 인식 등)를 한눈에 정리한 논문이에요. 참여형(현장과 함께)·반복형(계속 고치기) 접근이 핵심 원칙입니다.기술 쪽으론 문제해결·최적화·계획·의사결정과 기계학습(지도·비지도), 확률적 추론이 공통으로 많이 쓰였고, 그만큼 고품질 데이터와 현장 전문가의 지식이 성패를 좌우했어요.심리 쪽으론 AI가 일을 돕는 순간 바뀌는 역할·자율성·전문성 감각, 공정성/설명이 수용과 신뢰에 직접 영향을 줍니다. 초기에 데모(시연용 프로토타입)로 함께 시험하고, AI 리터러시(원리·한계 이해)를 키우면 도입 갈등이 크게 줄어요.. 공부/AI 2025. 9. 3.
검색 엔진보다, AI 검색이 좋은 이유가 뭘까? (은어 검색 가능) 최근 궁금한 용어가 있어서 네이버나, 구글에 검색해본적 이있다, > 라는 단어를 들어본적 있는가? 나는 없다 그래서 네이버나 구글에 검색한 결과 원하는 결과는 없었다, 그래서 AI에게 글 링크와 함께 분석 요청을 했다, 아래는 요청 결과다, 요약 하자면 비공식 용어(은어)는 네임드 검색 엔진에서도 찾기 힘들다는 것, 왜그럴까?🧩 단어 해석캔망"캔디 망함"의 줄임말로, 이채널의 팬덤에서 특정 인물(캔디라는 별명을 가진 사람)이 망했다는 의미로 사용돼. 보통 논란이나 실수로 이미지가 안 좋아졌을 때 쓰는 표현이야.오소"오소리"의 줄임말인데, 이채널 팬덤 내에서 특정 인물이나 팬을 지칭하는 별명일 가능성이 높아. 맥락에 따라 긍정적일 수도, 부정적일 수도 있어. 디시에서는 별명으로 사람을 부르며 놀리는 문화.. 공부/AI 2025. 9. 1.
AI와 인지과학이 함께 가야 할 길 핵심 요약 이 논문은 AI와 인지과학(Cognitive Science) 의 연결고리를 정리하고, 서로가 더 잘 만나야 둘 다 진짜로 발전한다고 말해요 — 단순한 성능 향상뿐 아니라 인간 마음을 설명할 수 있는 이론적·문화적·윤리적 기반까지 필요하다고 주장합니다.지금 AI 연구는 주의(attention), 메모리(LSTM) 같은 인지 이론에서 영감을 얻었지만, 많은 모델은 의도(intentionality), 체현(embodiment), 문화적 맥락 같은 핵심 인간 속성은 반영하지 못한다고 지적합니다. 그래서 ‘모방’에서 한 걸음 더 나아가 설명 가능한 인지모델이 필요하다고 말합니다.논문은 향후 연구의 7가지 핵심 과제(예: 의미의 접지(grounding), 체현·문화 통합, 개인화된 인지표현, 다중감각 통.. 공부/AI 2025. 8. 30.